traducción automática

The EA-MT dataset

El conjunto de datos utilizado en esta tarea está compuesto por oraciones en lengua fuente (inglés) que contienen entidades nombradas potencialmente complejas desde el punto de vista de la traducción automática. Estas entidades pueden ser raras, ambiguas o desconocidas para los sistemas de traducción, lo que supone un desafío adicional más allá de la traducción léxica convencional.

XC-Translate-2025-en-es

El conjunto de datos es un benchmark de referencia (gold) para evaluar el rendimiento de sistemas de traducción automática en la traducción de textos que contienen entidades cuyos nombres son significativamente diferentes entre un conjunto de 10 lenguas diversas. En primer lugar, se seleccionaron las entidades de interés para la tarea, y posteriormente se generaron oraciones que contienen dichas entidades utilizando GPT-4. Cada oración se tradujo a 10 lenguas objetivo por al menos tres traductores nativos.