MULTICONER es un conjunto de datos multilingües para el reconocimiento de entidades nombradas que abarca 3 dominios (frases de Wikipedia, preguntas y consultas de búsqueda) en 11 idiomas, entre los cuales el español, así como subconjuntos multilingües y de code mixing. El dataset recoge casos que representan retos como escenarios de bajo contexto (texto corto y sin encasillar), entidades sintácticamente complejas como títulos de películas y entidades con distribuciones de cola larga. El dataset se ha compilado a partir de recursos públicos utilizando técnicas como el muestreo de frases basado en heurística, la extracción y asignación de plantillas y la traducción automática.
- Inicie sesión o registrese para enviar comentarios