detección de odio

EXIST-2023-ES

El corpus español EXIST 2023 es una colección de tuits etiquetados con información relacionada con el sexismo: si el tweet es sexista, el tipo de intención que muestra el autor del tuit y el tipo de sexismo que se está ejerciendo.

HOPE-ES 2023

El corpus es una colección de 2062 tweets en español anotados con una etiqueta binaria que indica si los tweets contienen un mensaje de esperanza o no. Consta de tuits relacionados con LGTB que fueron recopilados con la API de Twitter (27 de junio de 2021 al 26 de julio de 2021) y un conjunto de tuits recopilados mediante la herramienta UMUCorpusClassifier, que permite definir diferentes criterios de búsqueda como palabras clave, cuentas y geolocalización. El corpus es una versión mejorada y ampliada del conjunto de datos SpanishHopeEDI.

HOMO-MEX 2023

Corpus de tuits en español mexicano que contienen sustantivos indicativos de la comunidad LGBT+, incluyendo jerga, insultos y terminología general utilizada para nombrar a los miembros del colectivo LGBT+. Las fechas de este conjunto de tweets son del 01-01-2012 al 10-01-2022. Para compilar el corpus se recolectaron datos de Twitter utilizando la API con un filtro geográfico específico de México. Además, se empleó un léxico de términos LGBTQ+ para seleccionar los tweets obtenidos.