traducción automática

The EA-MT dataset

Lee más sobre The EA-MT dataset
Inicie sesión o registrese para enviar comentarios

El conjunto de datos utilizado en esta tarea está compuesto por oraciones en lengua fuente (inglés) que contienen entidades nombradas potencialmente complejas desde el punto de vista de la traducción automática. Estas entidades pueden ser raras, ambiguas o desconocidas para los sistemas de traducción, lo que supone un desafío adicional más allá de la traducción léxica convencional.

Entity-Aware Machine Translation EN-ES

NLP topic

traducción automática

Dataset

The EA-MT dataset

Idioma

Español

Inglés

Árabe

Alemán

Francés

Italiano

Coreano

Chino

Año

2025

XC-Translate-2025-en-es

Lee más sobre XC-Translate-2025-en-es
Inicie sesión o registrese para enviar comentarios

El conjunto de datos es un benchmark de referencia (gold) para evaluar el rendimiento de sistemas de traducción automática en la traducción de textos que contienen entidades cuyos nombres son significativamente diferentes entre un conjunto de 10 lenguas diversas. En primer lugar, se seleccionaron las entidades de interés para la tarea, y posteriormente se generaron oraciones que contienen dichas entidades utilizando GPT-4. Cada oración se tradujo a 10 lenguas objetivo por al menos tres traductores nativos.