The EA-MT dataset | Portal ODESIA

El conjunto de datos utilizado en esta tarea está compuesto por oraciones en lengua fuente (inglés) que contienen entidades nombradas potencialmente complejas desde el punto de vista de la traducción automática. Estas entidades pueden ser raras, ambiguas o desconocidas para los sistemas de traducción, lo que supone un desafío adicional más allá de la traducción léxica convencional. El objetivo del dataset es evaluar la capacidad de los sistemas de traducción automática para manejar correctamente este tipo de elementos, garantizando su correcta transferencia al idioma destino sin pérdida de significado ni errores de desambiguación. En consecuencia, el dataset está diseñado específicamente para poner a prueba la robustez de los modelos frente a casos difíciles de entidades nombradas, que constituyen un aspecto crítico en aplicaciones reales de traducción.

Idioma(s)

Español

Inglés

Árabe

Alemán

Francés

Italiano

Coreano

Chino

Enlace descripción Dataset

https://sapienzanlp.github.io/ea-mt/docs/task/data

Año

2025

Anotaciones

Cada oración está etiquetada con sus traducciones en diferentes idiomas

Acceso a datos

Publico

Enlace acceso a datos

https://sapienzanlp.github.io/ea-mt/docs/task/data#downloads

Publicación

Simone Conia, Min Li, Roberto Navigli, and Saloni Potdar. 2025. SemEval-2025 Task 2: Entity-Aware Machine Translation. In Proceedings of the 19th International Workshop on Semantic Evaluation (SemEval-2025), pages 2535–2557, Vienna, Austria. Association for Computational Linguistics.

Enlace publicación

https://aclanthology.org/2025.semeval-1.326/

NLP Topic

traducción automática

Documentos

57611

Tamaño

57611.00MB

Tamaño set entrenamiento

7278

Tamaño set evaluación

49606

Inicie sesión o registrese para enviar comentarios