El corpus RefutES es un conjunto de datos diseñado para la tarea de refutar mensajes de discurso de odio mediante contra-narrativas. Está compuesto por un conjunto de pares de mensajes ofensivos y sus respectivas respuestas, generadas con el objetivo de ser razonadas, respetuosas, no ofensivas y contener información específica y veraz. El corpus se presenta en archivos CSV con las siguientes columnas:
- id: Identificador único de cada par de mensaje de odio - contra-narrativa.
- Hate-speech: Contiene el mensaje de discurso de odio dirigido a un grupo específico.
- Reference-counternarrative: Contiene la contra-narrativa asociada al mensaje de odio, generada por GPT-4.
- Target: Indica el grupo afectado por el mensaje de odio.
Idioma(s)
Español
Enlace descripción Dataset
Año
2024
Dominio
Social
Anotaciones
Cada anotación incluye: el identificador único de cada par mensaje de odio, el mensaje de odio, la contra-narrativa generada por GPT-4, y el colectivo al que se dirige el mensaje.
Formato
csv
Acceso a datos
Publico
Enlace acceso a datos
Publicación
Vallecillo-Rodríguez et al. (2024). Overview of RefutES at IberLEF 2024: Automatic Generation of Counter Speech in Spanish. Procesamiento del Lenguaje Natural, Revista, 73: 449-459.
NLP Topic
Número de unidades
2931
Tipo de unidades
Documentos
Tamaño set entrenamiento
2496
Tamaño set evaluación
156
Tamaño set desarrollo
279
- Inicie sesión o registrese para enviar comentarios

