TA1C 2024 | Portal ODESIA

El dataset está compuesto por tuits en español publicados entre octubre de 2020 y octubre de 2021 por 18 medios de comunicación de distintos países hispanohablantes, cada uno enlazado a su noticia correspondiente (incluyendo URL, HTML limpio, titular, subtítulo, cuerpo del texto e imágenes). Cada tuit está etiquetado como “clickbait” o “no clickbait”. En el caso de tratarse de un clickbait, se acompaña con spoilers elaborados manualmente.

Idioma(s)

Español

Enlace descripción Dataset

https://codalab.lisn.upsaclay.fr/competitions/21819#learn_the_details-overview

Año

2025

Dominio

Noticias

Tipo Textos

Tuits

Anotaciones

Cada tuit está etiquetado como “clickbait” o “no clickbait”. En el caso de tratarse de un clickbait, se acompaña con spoilers elaborados manualmente.

Formato

txt

Acceso a datos

Publico

Enlace acceso a datos

https://codalab.lisn.upsaclay.fr/competitions/21819#learn_the_details-overview

Publicación

Mordecki, G. et al. 2025. Overview of TA1C at IberLEF 2025: Detecting and Spoiling Clickbait in Spanish-Language News. Procesamiento del Lenguaje Natural, 75, pp. 523-535.

Enlace publicación

http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/6773

NLP Topic

detección de clickbait

Número de unidades

3500

Tipo de unidades

Tuits

Documentos

3500

Tamaño

3500.00MB

Tamaño set entrenamiento

2800

Tamaño set evaluación

700

Inicie sesión o registrese para enviar comentarios