PoliticES 2023

PoliticES 2023 es una extensión del conjunto de datos PoliCorpus 2020 y del corpus utilizado para la tarea compartida PoliticES 2022. Se recopiló entre 2020 y 2022 de cuentas de las cuentas de Twitter de políticos, periodistas políticos y famosos de España mediante el UMUCorpusClassifier.

Estos usuarios fueron seleccionados porque su afiliación política se puede adivinar según el partido al que pertenecen los políticos, la línea editorial de los periódicos donde escriben los periodistas o el tipo de partido político que apoyan los famosos. Las cuentas de los políticos fueron seleccionadas entre: (1) miembros del gobierno de España, (2) miembros del Congreso y Senado de España, (3) alcaldes de algunas ciudades importantes de España, (4) presidentes de las comunidades autónomas, ( 5) ex políticos, y (6) colaboradores afiliados a partidos políticos. Se seleccionaron periodistas de diferentes medios informativos españoles, como ABC, El País, El Diario, El Mundo o La Razón entre otros. Los tweets que pertenecen a cada cluster se seleccionan favoreciendo la diversidad, incluyendo textos de diferentes fechas y temáticas. Cada grupo está etiquetado con un género autoasignado (masculino, femenino), profesión (celebridad, político, periodista) y espectro político en dos ejes: binario (izquierda, derecha) y multiclase (izquierda, izquierda moderada, derecha moderada, derecha). ). El conjunto de datos final consta de 2797 grupos de 80 tweets cada uno.

Idioma(s)
Español
Año
2023
Dominio
Social
Política
Tipo Textos
Tuits
Anotaciones
Self-assigned gender (male, female), profession (celebrity, politician, journalist), and political spectrum on two axes: binary (left, right) and multiclass (left, moderate left, moderate right, right)
Acceso a datos
Registro

Publicación
José Antonio Garcia-Díaz, Salud María Jiménez-Zafra, María-Teresa Martín-Valdivia, Francisco García-Sánchez, Luis Alfonso Ureña-López, Rafael Valencia-García (2023) Overview of PoliticES at IberLEF 2023: Political Ideology Detection in Spanish Texts Procesamiento del Lenguaje Natural, Revista nº 71, septiembre de 2023, pp. 409-416.
NLP Topic
Número de unidades
2797
Tipo de unidades
Tuits
Tamaño set entrenamiento
2250
Tamaño set evaluación
547

Si has publicado un resultado mejor que los de la lista, envía un mensaje a odesia-comunicacion@lsi.uned.es indicando el resultado y el DOI del artículo, junto con una copia del mismo si no está publicado en abierto.