MultiCoNER-ES

MULTICONER es un conjunto de datos multilingües para el reconocimiento de entidades nombradas que abarca 3 dominios (frases de Wikipedia, preguntas y consultas de búsqueda) en 11 idiomas, entre los cuales el español, así como subconjuntos multilingües y de code mixing. El dataset recoge casos que representan retos  como escenarios de bajo contexto (texto corto y sin encasillar), entidades sintácticamente complejas como títulos de películas y entidades con distribuciones de cola larga. El dataset  se ha compilado a partir de recursos públicos utilizando técnicas como el muestreo de frases basado en heurística, la extracción y asignación de plantillas y la traducción automática.

Idioma(s)
Español
Año
2022
Dominio
Diversos
Tipo Textos
Wikipedia
Preguntas
Búsquedas
Anotaciones
Entidades nombradas: PERSON, LOCATION, GROUPS, CORPORATION, PRODUCT, CREATIVE-WORK
Formato
CoNLL
Acceso a datos
Publico

Licencia
CC-BY-4.0
Número de unidades
233987
Tipo de unidades
Oraciones
Frases
233987
Tamaño set entrenamiento
15300 sentences
Tamaño set evaluación
217887 sentences
Tamaño set desarrollo
800 sentences

Si has publicado un resultado mejor que los de la lista, envía un mensaje a odesia-comunicacion@lsi.uned.es indicando el resultado y el DOI del artículo, junto con una copia del mismo si no está publicado en abierto.