MultiCoNER v2 ES

MULTICONER, un gran conjunto de datos multilingüe para el reconocimiento de entidades nombradas que cubre 3 dominios (oraciones Wiki, preguntas y consultas de búsqueda) en 11 idiomas, así como subconjuntos multilingües y de combinación de códigos. Este conjunto de datos está diseñado para representar los desafíos contemporáneos en NER, incluidos escenarios de bajo contexto (texto breve y sin mayúsculas), entidades sintácticamente complejas como títulos de películas y distribuciones de entidades de cola larga.

Idioma(s)
Español
Año
2023
Dominio
General
Tipo Textos
Oraciones de wiki
Preguntas
Búsquedas
Anotaciones
named entities
Acceso a datos
Publico

Publicación
"Shervin Malmasi, Anjie Fang, Besnik Fetahu, Sudipta Kar, Oleg Rokhlenko (2022) MultiCoNER: A Large-scale Multilingual dataset for Complex Named Entity Recognition. Proceedings of the 29th International Conference on Computational Linguistics, pages 3798–3809
October 12–17, 2022"
Licencia
CC-BY-4.0
Número de unidades
264207
Tipo de unidades
Oraciones
Frases
264207
Tamaño set entrenamiento
16453
Tamaño set evaluación
246900
Tamaño set desarrollo
854
Información adicional tamaño

named entities

Si has publicado un resultado mejor que los de la lista, envía un mensaje a odesia-comunicacion@lsi.uned.es indicando el resultado y el DOI del artículo, junto con una copia del mismo si no está publicado en abierto.