SQUAD-SQAC 2024 ES

SQUAD/SQAC 2024 es una extensión de los datasets  SQUAD v1.1. (Stanford Question Answering Corpus) (Rajpurkar et al., 2016) para el inglés y SQAC (Spanish Question Answering Corpus) (Gutiérrez-Fandiño et al., 2021)  para el español.  El dataset contiene noticias académicas del CSIC para el español y de Cambridge University para el inglés, con preguntas y respuestas extractivas. Las noticias son de dominios variados  y suelen ser cortas, entre 712 y 2,760 palabras en inglés, y entre 514 y 2,818 palabras en Español. Por cada texto se incluye un mínimo de 10 preguntas. Los textos están dirigidos al público general, por lo que no usan lenguaje  especializado. SQUAD/SQAC 2024 ES es el dataset en español.

Idioma(s)
Español
Año
2024
Dominio
Diversos
Tipo Textos
Publicaciones científicas
Anotaciones
Pares pregunta-respuesta extractiva
Formato
json

Número de unidades
110
Tipo de unidades
Noticias
Tokens
962502
Documentos
110
Tamaño set evaluación
110

Si has publicado un resultado mejor que los de la lista, envía un mensaje a odesia-comunicacion@lsi.uned.es indicando el resultado y el DOI del artículo, junto con una copia del mismo si no está publicado en abierto.