MultiParaDetox

MultiParaDetox es un dataset para la detoxificación de texto, una tarea de transferencia de estilo que convierte expresiones tóxicas en un registro neutral. Extiende el enfoque de ParaDetox a múltiples idiomas, permitiendo la creación automática de corpus paralelos para detoxificación.

Idioma(s)
Español
Ucraniano
Año
2024
Dominio
Diversos
Anotaciones
Corpus paralelo.
Acceso a datos
Publico

Publicación
Daryna Dementieva, Nikolay Babakov, and Alexander Panchenko. 2024. MultiParaDetox: Extending Text Detoxification with Parallel Data to New Languages. In Proceedings of the 2024 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 2: Short Papers), pages 124–140, Mexico City, Mexico. Association for Computational Linguistics.
Licencia
Openrail++
Número de unidades
1720
Tipo de unidades
Tuits
Tamaño set entrenamiento
720
Tamaño set evaluación
600
Tamaño set desarrollo
400

Si has publicado un resultado mejor que los de la lista, envía un mensaje a odesia-comunicacion@lsi.uned.es indicando el resultado y el DOI del artículo, junto con una copia del mismo si no está publicado en abierto.