TA1C 2024

El dataset está compuesto por tuits en español publicados entre octubre de 2020 y octubre de 2021 por 18 medios de comunicación de distintos países hispanohablantes, cada uno enlazado a su noticia correspondiente (incluyendo URL, HTML limpio, titular, subtítulo, cuerpo del texto e imágenes). Cada tuit está etiquetado como “clickbait” o “no clickbait”. En el caso de tratarse de un clickbait, se acompaña con spoilers elaborados manualmente.

Idioma(s)
Español
Año
2025
Dominio
Noticias
Tipo Textos
Tuits
Anotaciones
Cada tuit está etiquetado como “clickbait” o “no clickbait”. En el caso de tratarse de un clickbait, se acompaña con spoilers elaborados manualmente.
Formato
txt
Acceso a datos
Publico

Publicación
Mordecki, G. et al. 2025. Overview of TA1C at IberLEF 2025: Detecting and Spoiling Clickbait in Spanish-Language News. Procesamiento del Lenguaje Natural, 75, pp. 523-535.
Número de unidades
3500
Tipo de unidades
Tuits
Documentos
3500
Tamaño
3500.00MB
Tamaño set entrenamiento
2800
Tamaño set evaluación
700

Si has publicado un resultado mejor que los de la lista, envía un mensaje a odesia-comunicacion@lsi.uned.es indicando el resultado y el DOI del artículo, junto con una copia del mismo si no está publicado en abierto.