MultiParaDetox | Portal ODESIA

MultiParaDetox es un dataset para la detoxificación de texto, una tarea de transferencia de estilo que convierte expresiones tóxicas en un registro neutral. Extiende el enfoque de ParaDetox a múltiples idiomas, permitiendo la creación automática de corpus paralelos para detoxificación.

Idioma(s)

Español

Ucraniano

Enlace descripción Dataset

https://huggingface.co/datasets/textdetox/multilingual_paradetox

Año

2024

Dominio

Diversos

Anotaciones

Corpus paralelo.

Enlace guía anotaciones

https://pan.webis.de/clef25/pan25-web/text-detoxification.html

Acceso a datos

Publico

Enlace acceso a datos

https://huggingface.co/datasets/textdetox/multilingual_paradetox

Publicación

Daryna Dementieva, Nikolay Babakov, and Alexander Panchenko. 2024. MultiParaDetox: Extending Text Detoxification with Parallel Data to New Languages. In Proceedings of the 2024 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 2: Short Papers), pages 124140, Mexico City, Mexico. Association for Computational Linguistics.

Enlace publicación

https://aclanthology.org/2024.naacl-short.12/

Licencia

Openrail++

NLP Topic

text detoxification

Número de unidades

1720

Tipo de unidades

Tuits

Tamaño set entrenamiento

720

Tamaño set evaluación

600

Tamaño set desarrollo

400

Inicie sesión o registrese para enviar comentarios