Spa-DataBench | Portal ODESIA

El corpus consiste en diez datasets tabulares provenientes de encuestas de organismos oficiales como CIS, CEA, CRS y 40dB. Incluye un total de 200 pares de pregunta-respuesta, organizados como tuplas (dataset, question, answer), lo que facilita su ampliación y reutilización.

Idioma(s)

Español

Enlace descripción Dataset

https://huggingface.co/datasets/SINAI/databenchSPA

Año

2025

Dominio

Diversos

Anotaciones

Cada instancia en Spa-DataBench está organizada como una tupla (dataset, question, answer), donde la respuesta corresponde a una etiqueta de referencia (gold standard). La información de etiquetado incluye el tipo de respuesta esperada, clasificado como booleana, categórica, numérica o lista (de números o categorías).

Acceso a datos

Publico

Enlace acceso a datos

https://huggingface.co/datasets/SINAI/databenchSPA

Publicación

Osés Grijalba, J. et al. 2024. Towards Quality Benchmarking in Question Answering over Tabular Data in Spanish. Procesamiento del Lenguaje Natural, 73, pp. 283-296.

Enlace publicación

http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/6617

NLP Topic

sistemas de pregunta-respuesta

Número de unidades

300

Documentos

300

Tamaño

300.00MB

Tamaño set entrenamiento

120

Tamaño set evaluación

100

Tamaño set desarrollo

80

Inicie sesión o registrese para enviar comentarios