reconocimiento de entidades nombradas

MultiCoNER-ES

MULTICONER es un conjunto de datos multilingües para el reconocimiento de entidades nombradas que abarca 3 dominios (frases de Wikipedia, preguntas y consultas de búsqueda) en 11 idiomas, entre los cuales el español, así como subconjuntos multilingües y de code mixing. El dataset recoge casos que representan retos  como escenarios de bajo contexto (texto corto y sin encasillar), entidades sintácticamente complejas como títulos de películas y entidades con distribuciones de cola larga.

DIANN-2018-ES

El corpus es una colección de 500 resúmenes de artículos biomédicos de Elsevier descargados durante  2017 y 2018. Está dividido en una partición de entrenamiento (80%) y una de evaluación (20%). Está anotado con discapacidades, negaciones y el alcance de las negaciones.

MedProcNER/ProcTEMIST corpus 2023

Conjunto de datos de 1000 informes de casos clínicos anotados manualmente por múltiples expertos clínicos con procedimientos clínicos. Los informes de casos fueron seleccionados por expertos clínicos y pertenecen a diversas especialidades médicas, incluidas, entre otras, oncología, odontología, urología y psiquiatría. Son los mismos documentos de texto que se utilizaron para el corpus y la tarea compartida sobre enfermedades DisTEMIST, creando una colección de textos completamente anotados para el reconocimiento y la normalización de conceptos clínicos.

MEDDOPLACE Corpus: Gold Standard annotations for Medical Documents Place-related Content Extraction

El corpus de MEDDOPLACE es una colección de 1.000 informes de casos clínicos en español de diversas especialidades médicas como psiquiatría, neurología, medicina del viajero, enfermedades infecciosas, cardiología, medicina del trabajo y oncología. El corpus está anotado, por un lado, con lugares y ubicaciones y, por otro lado, clases de ubicación de relevancia clínica: (a) lugar de nacimiento, (b) residencia, (c) movimiento y (d) atención sanitaria.

MultiCoNER v2 ES

MULTICONER, un gran conjunto de datos multilingüe para el reconocimiento de entidades nombradas que cubre 3 dominios (oraciones Wiki, preguntas y consultas de búsqueda) en 11 idiomas, así como subconjuntos multilingües y de combinación de códigos. Este conjunto de datos está diseñado para representar los desafíos contemporáneos en NER, incluidos escenarios de bajo contexto (texto breve y sin mayúsculas), entidades sintácticamente complejas como títulos de películas y distribuciones de entidades de cola larga.