La tarea se centra en detectar alucinaciones y otros errores de sobregeneración en la salida de modelos de lenguaje de gran tamaño ajustados mediante instrucciones. Mu-SHROOM aborda modelos de propósito general en 14 idiomas y plantea el problema de la detección de alucinaciones como una tarea de etiquetado de fragmentos.
Publicación
Raul Vazquez, Timothee Mickus, Elaine Zosa, Teemu Vahtola, Jörg Tiedemann, Aman Sinha, Vincent Segonne, Fernando Sanchez - Vega, Alessandro Raganato, Jind?ich Libovický, Jussi Karlgren, Shaoxiong Ji, Jind?ich Helcl, Liane Guillou, Ona De Gibert, Jaione Bengoetxea, Joseph Attieh, and Marianna Apidianaki. 2025. SemEval-2025 Task 3: Mu-SHROOM, the Multilingual Shared-task on Hallucinations and Related Observable Overgeneration Mistakes. In Proceedings of the 19th International Workshop on Semantic Evaluation (SemEval-2025), pages 2472–2497, Vienna, Austria. Association for Computational Linguistics.
Idioma
Español
Inglés
Árabe
Alemán
Farsi
Francés
Hindi
Italiano
Sueco
Chino
NLP topic
Dataset
Año
2025
Enlace publicación
Métrica Ranking
IoU

