RefutES

El corpus RefutES es un conjunto de datos diseñado para la tarea de refutar mensajes de discurso de odio mediante contra-narrativas. Está compuesto por un conjunto de pares de mensajes ofensivos y sus respectivas respuestas, generadas con el objetivo de ser razonadas, respetuosas, no ofensivas y contener información específica y veraz. El corpus se presenta en archivos CSV con las siguientes columnas:

  • id: Identificador único de cada par de mensaje de odio - contra-narrativa.
  • Hate-speech: Contiene el mensaje de discurso de odio dirigido a un grupo específico.
  • Reference-counternarrative: Contiene la contra-narrativa asociada al mensaje de odio, generada por GPT-4.
  • Target: Indica el grupo afectado por el mensaje de odio.
Idioma(s)
Español
Año
2024
Dominio
Social
Anotaciones
Cada anotación incluye: el identificador único de cada par mensaje de odio, el mensaje de odio, la contra-narrativa generada por GPT-4, y el colectivo al que se dirige el mensaje.
Formato
csv
Acceso a datos
Publico

Publicación
Vallecillo-Rodríguez et al. (2024). Overview of RefutES at IberLEF 2024: Automatic Generation of Counter Speech in Spanish. Procesamiento del Lenguaje Natural, Revista, 73: 449-459.
Número de unidades
2931
Tipo de unidades
Documentos
Tamaño set entrenamiento
2496
Tamaño set evaluación
156
Tamaño set desarrollo
279

Si has publicado un resultado mejor que los de la lista, envía un mensaje a odesia-comunicacion@lsi.uned.es indicando el resultado y el DOI del artículo, junto con una copia del mismo si no está publicado en abierto.