PastReader-2025

El dataset está compuesto por publicaciones históricas de prensa en dominio público digitalizadas por la Biblioteca Nacional de España (BNE). Abarca contenidos desde el siglo XVII hasta el XX y está disponible en formato PDF junto con sus correspondientes archivos OCR descargables en texto plano. La calidad del OCR es variable debido a factores como la fecha de digitalización y el estado de conservación de los originales. Parte del corpus incluye correcciones manuales colaborativas, que constituyen recursos de gran valor como datos de referencia (“ground truth”) para el entrenamiento y evaluación de sistemas automáticos.

Idioma(s)
Español
Año
2025
Anotaciones
El conjunto de datos incluye información de etiquetado bibliográfico y estructural asociada a cada publicación y número, como el título, la fecha, el número de edición y los metadatos de colección proporcionados por la BNE. Además, los archivos de texto completo derivados del OCR conservan señales estructurales básicas (por ejemplo, segmentación por páginas y por números), lo que permite la alineación entre las imágenes escaneadas, los PDFs y su contenido textual correspondiente para su posterior procesamiento y anotación.
Formato
txt
Acceso a datos
Publico

Publicación
Montejo-Ráez, A. et al. 2025. Overview of PastReader at IberLEF 2025: Transcribing Texts From the Past. Procesamiento del Lenguaje Natural, 75, pp. 453-460.
Número de unidades
12195
Documentos
12195
Tamaño
12195.00MB
Tamaño set entrenamiento
8959
Tamaño set evaluación
2736
Tamaño set desarrollo
500

Si has publicado un resultado mejor que los de la lista, envía un mensaje a odesia-comunicacion@lsi.uned.es indicando el resultado y el DOI del artículo, junto con una copia del mismo si no está publicado en abierto.