El conjunto de datos es un benchmark de referencia (gold) para evaluar el rendimiento de sistemas de traducción automática en la traducción de textos que contienen entidades cuyos nombres son significativamente diferentes entre un conjunto de 10 lenguas diversas. En primer lugar, se seleccionaron las entidades de interés para la tarea, y posteriormente se generaron oraciones que contienen dichas entidades utilizando GPT-4. Cada oración se tradujo a 10 lenguas objetivo por al menos tres traductores nativos.
Idioma(s)
Español
Inglés
Árabe
Alemán
Francés
Italiano
Coreano
Chino
Enlace descripción Dataset
Año
2025
Dominio
Diversos
Tipo Textos
Pares de oraciones
Anotaciones
traducciones del inglés al español
Enlace guía anotaciones
Acceso a datos
Publico
Enlace acceso a datos
Publicación
Simone Conia, Daniel Lee, Min Li, Umar Farooq Minhas, Saloni Potdar, and Yunyao Li. 2024. Towards Cross-Cultural Machine Translation with Retrieval-Augmented Generation from Multilingual Knowledge Graphs. In Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing, pages 16343–16360, Miami, Florida, USA. Association for Computational Linguistics.
Enlace publicación
NLP Topic
Número de unidades
6148
Tamaño set evaluación
5337
Tamaño set desarrollo
811
- Inicie sesión o registrese para enviar comentarios

