El dataset está compuesto por tuits en español publicados entre octubre de 2020 y octubre de 2021 por 18 medios de comunicación de distintos países hispanohablantes, cada uno enlazado a su noticia correspondiente (incluyendo URL, HTML limpio, titular, subtítulo, cuerpo del texto e imágenes). Cada tuit está etiquetado como “clickbait” o “no clickbait”. En el caso de tratarse de un clickbait, se acompaña con spoilers elaborados manualmente.
Idioma(s)
Español
Enlace descripción Dataset
Año
2025
Dominio
Noticias
Tipo Textos
Tuits
Anotaciones
Cada tuit está etiquetado como “clickbait” o “no clickbait”. En el caso de tratarse de un clickbait, se acompaña con spoilers elaborados manualmente.
Formato
txt
Acceso a datos
Publico
Enlace acceso a datos
Publicación
Mordecki, G. et al. 2025. Overview of TA1C at IberLEF 2025: Detecting and Spoiling Clickbait in Spanish-Language News. Procesamiento del Lenguaje Natural, 75, pp. 523-535.
Enlace publicación
NLP Topic
Número de unidades
3500
Tipo de unidades
Tuits
Documentos
3500
Tamaño
3500.00MB
Tamaño set entrenamiento
2800
Tamaño set evaluación
700
- Inicie sesión o registrese para enviar comentarios

