El corpus consiste en diez datasets tabulares provenientes de encuestas de organismos oficiales como CIS, CEA, CRS y 40dB. Incluye un total de 200 pares de pregunta-respuesta, organizados como tuplas (dataset, question, answer), lo que facilita su ampliación y reutilización.
Idioma(s)
Español
Enlace descripción Dataset
Año
2025
Dominio
Diversos
Anotaciones
Cada instancia en Spa-DataBench está organizada como una tupla (dataset, question, answer), donde la respuesta corresponde a una etiqueta de referencia (gold standard). La información de etiquetado incluye el tipo de respuesta esperada, clasificado como booleana, categórica, numérica o lista (de números o categorías).
Acceso a datos
Publico
Enlace acceso a datos
Publicación
Osés Grijalba, J. et al. 2024. Towards Quality Benchmarking in Question Answering over Tabular Data in Spanish. Procesamiento del Lenguaje Natural, 73, pp. 283-296.
Enlace publicación
NLP Topic
Número de unidades
300
Documentos
300
Tamaño
300.00MB
Tamaño set entrenamiento
120
Tamaño set evaluación
100
Tamaño set desarrollo
80
- Inicie sesión o registrese para enviar comentarios

