Spa-DataBench

El corpus consiste en diez datasets tabulares provenientes de encuestas de organismos oficiales como CIS, CEA, CRS y 40dB. Incluye un total de 200 pares de pregunta-respuesta, organizados como tuplas (dataset, question, answer), lo que facilita su ampliación y reutilización.
Idioma(s)
Español
Año
2025
Dominio
Diversos
Anotaciones
Cada instancia en Spa-DataBench está organizada como una tupla (dataset, question, answer), donde la respuesta corresponde a una etiqueta de referencia (gold standard). La información de etiquetado incluye el tipo de respuesta esperada, clasificado como booleana, categórica, numérica o lista (de números o categorías).
Acceso a datos
Publico

Publicación
Osés Grijalba, J. et al. 2024. Towards Quality Benchmarking in Question Answering over Tabular Data in Spanish. Procesamiento del Lenguaje Natural, 73, pp. 283-296.
Número de unidades
300
Documentos
300
Tamaño
300.00MB
Tamaño set entrenamiento
120
Tamaño set evaluación
100
Tamaño set desarrollo
80

Si has publicado un resultado mejor que los de la lista, envía un mensaje a odesia-comunicacion@lsi.uned.es indicando el resultado y el DOI del artículo, junto con una copia del mismo si no está publicado en abierto.