The MiSonGyny 2025 dataset is composed of Spanish song lyrics annotated according to whether they contain misogynistic content or not, and, if so, with the type of content (violence, sexual, or hate).
Language(s)
Spanish
Dataset description link
Year
2025
Annotations
Cada instancia está etiquetada como misógina (M) o no misógina (NM) para la tarea de clasificación binaria. En los casos en los que se identifica misoginia, la instancia se anota además con una o más categorías específicas —Sexualización (S), Violencia (V), Odio (H) o No relacionado (NR)— para la tarea de clasificación de grano fino. Las etiquetas se asignaron mediante un esquema de votación mayoritaria.
Format
csv
Data access
Registration
Data link
Publication
Alcántara, T. et al. 2025. Overview of MiSonGyny at IberLEF 2025: Misogyny Speech Detection in Spanish Language Song Lyrics. Procesamiento del Lenguaje Natural, 75, pp. 441-451.
NLP Topic
Number of units
2631
Documents
2631
Size
2631.00MB
Training set size
2105
Test set size
526

