The EA-MT dataset

El conjunto de datos utilizado en esta tarea está compuesto por oraciones en lengua fuente (inglés) que contienen entidades nombradas potencialmente complejas desde el punto de vista de la traducción automática. Estas entidades pueden ser raras, ambiguas o desconocidas para los sistemas de traducción, lo que supone un desafío adicional más allá de la traducción léxica convencional. El objetivo del dataset es evaluar la capacidad de los sistemas de traducción automática para manejar correctamente este tipo de elementos, garantizando su correcta transferencia al idioma destino sin pérdida de significado ni errores de desambiguación. En consecuencia, el dataset está diseñado específicamente para poner a prueba la robustez de los modelos frente a casos difíciles de entidades nombradas, que constituyen un aspecto crítico en aplicaciones reales de traducción.
Idioma(s)
Español
Inglés
Árabe
Alemán
Francés
Italiano
Coreano
Chino
Año
2025
Anotaciones
Cada oración está etiquetada con sus traducciones en diferentes idiomas
Acceso a datos
Publico

Publicación
Simone Conia, Min Li, Roberto Navigli, and Saloni Potdar. 2025. SemEval-2025 Task 2: Entity-Aware Machine Translation. In Proceedings of the 19th International Workshop on Semantic Evaluation (SemEval-2025), pages 2535–2557, Vienna, Austria. Association for Computational Linguistics.
Documentos
57611
Tamaño
57611.00MB
Tamaño set entrenamiento
7278
Tamaño set evaluación
49606

Si has publicado un resultado mejor que los de la lista, envía un mensaje a odesia-comunicacion@lsi.uned.es indicando el resultado y el DOI del artículo, junto con una copia del mismo si no está publicado en abierto.