MultiCoNER-ES | Portal ODESIA

MULTICONER es un conjunto de datos multilingües para el reconocimiento de entidades nombradas que abarca 3 dominios (frases de Wikipedia, preguntas y consultas de búsqueda) en 11 idiomas, entre los cuales el español, así como subconjuntos multilingües y de code mixing. El dataset recoge casos que representan retos como escenarios de bajo contexto (texto corto y sin encasillar), entidades sintácticamente complejas como títulos de películas y entidades con distribuciones de cola larga. El dataset se ha compilado a partir de recursos públicos utilizando técnicas como el muestreo de frases basado en heurística, la extracción y asignación de plantillas y la traducción automática.

Idioma(s)

Español

Enlace descripción Dataset

https://aclanthology.org/2022.coling-1.334.pdf

Año

2022

Dominio

Diversos

Tipo Textos

Wikipedia

Preguntas

Búsquedas

Anotaciones

Entidades nombradas: PERSON, LOCATION, GROUPS, CORPORATION, PRODUCT, CREATIVE-WORK

Formato

CoNLL

Acceso a datos

Publico

Enlace acceso a datos

https://registry.opendata.aws/multiconer/

Enlace publicación

https://aclanthology.org/2022.coling-1.334.pdf

Licencia

CC-BY-4.0

NLP Topic

reconocimiento de entidades nombradas

Número de unidades

233987

Tipo de unidades

Oraciones

Frases

233987

Tamaño set entrenamiento

15300 sentences

Tamaño set evaluación

217887 sentences

Tamaño set desarrollo

800 sentences

Inicie sesión o registrese para enviar comentarios