MultiParaDetox es un dataset para la detoxificación de texto, una tarea de transferencia de estilo que convierte expresiones tóxicas en un registro neutral. Extiende el enfoque de ParaDetox a múltiples idiomas, permitiendo la creación automática de corpus paralelos para detoxificación.
Idioma(s)
Español
Ucraniano
Enlace descripción Dataset
Año
2024
Dominio
Diversos
Anotaciones
Corpus paralelo.
Enlace guía anotaciones
Acceso a datos
Publico
Enlace acceso a datos
Publicación
Daryna Dementieva, Nikolay Babakov, and Alexander Panchenko. 2024. MultiParaDetox: Extending Text Detoxification with Parallel Data to New Languages. In Proceedings of the 2024 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 2: Short Papers), pages 124140, Mexico City, Mexico. Association for Computational Linguistics.
Enlace publicación
Licencia
Openrail++
NLP Topic
Número de unidades
1720
Tipo de unidades
Tuits
Tamaño set entrenamiento
720
Tamaño set evaluación
600
Tamaño set desarrollo
400
- Inicie sesión o registrese para enviar comentarios