MULTICONER, un gran conjunto de datos multilingüe para el reconocimiento de entidades nombradas que cubre 3 dominios (oraciones Wiki, preguntas y consultas de búsqueda) en 11 idiomas, así como subconjuntos multilingües y de combinación de códigos. Este conjunto de datos está diseñado para representar los desafíos contemporáneos en NER, incluidos escenarios de bajo contexto (texto breve y sin mayúsculas), entidades sintácticamente complejas como títulos de películas y distribuciones de entidades de cola larga.
Idioma(s)
Español
Enlace descripción Dataset
Año
2023
Dominio
General
Tipo Textos
Oraciones de wiki
Preguntas
Búsquedas
Anotaciones
named entities
Acceso a datos
Publico
Enlace acceso a datos
Publicación
"Shervin Malmasi, Anjie Fang, Besnik Fetahu, Sudipta Kar, Oleg Rokhlenko (2022) MultiCoNER: A Large-scale Multilingual dataset for Complex Named Entity Recognition. Proceedings of the 29th International Conference on Computational Linguistics, pages 3798–3809
October 12–17, 2022"
October 12–17, 2022"
Enlace publicación
Licencia
CC-BY-4.0
NLP Topic
Número de unidades
264207
Tipo de unidades
Oraciones
Frases
264207
Tamaño set entrenamiento
16453
Tamaño set evaluación
246900
Tamaño set desarrollo
854
Información adicional tamaño
named entities
- Inicie sesión o registrese para enviar comentarios