HOMO-MEX 2023

Corpus de tuits en español mexicano que contienen sustantivos indicativos de la comunidad LGBT+, incluyendo jerga, insultos y terminología general utilizada para nombrar a los miembros del colectivo LGBT+. Las fechas de este conjunto de tweets son del 01-01-2012 al 10-01-2022. Para compilar el corpus se recolectaron datos de Twitter utilizando la API con un filtro geográfico específico de México. Además, se empleó un léxico de términos LGBTQ+ para seleccionar los tweets obtenidos. Los tweets están etiquetados con una etiqueta que indica si el tweet es LGBT+-fóbico o no, y etiquetas relacionadas con el tipo de fobia: Lesbofobia (L), Gayfobia (G), Bifobia (B), Transfobia (T),  y/u otras LGBT+fobia (O).

Idioma(s)
Español (Mexico)
Año
2023
Dominio
Social
Tipo Textos
Tuits
Anotaciones
A label indicating whether the tweet is LGBT+-phobic or not and labels related to the type of phobia: Lesbophobia (L), Gayphobia (G), Biphobia (B), Transphobia (T),  and/or other LGBT+phobia (O). 
Acceso a datos
Registro

Publicación
Juan Vásquez, Scott Andersen, Gemma Bel-enguix, Helena Gómez-adorno, and Sergio-luis Ojeda-trueba (2023) HOMO-MEX: A Mexican Spanish Annotated Corpus for LGBT+phobia Detection on Twitter. In The 7th Workshop on Online Abuse and Harms (WOAH), pages 202–214, Toronto, Canada. Association for Computational Linguistics.
NLP Topic
Número de unidades
11000
Tipo de unidades
Tuits
Tamaño set entrenamiento
7000
Tamaño set evaluación
4000

Si has publicado un resultado mejor que los de la lista, envía un mensaje a odesia-comunicacion@lsi.uned.es indicando el resultado y el DOI del artículo, junto con una copia del mismo si no está publicado en abierto.