PastReader-2025 | Portal ODESIA

El dataset está compuesto por publicaciones históricas de prensa en dominio público digitalizadas por la Biblioteca Nacional de España (BNE). Abarca contenidos desde el siglo XVII hasta el XX y está disponible en formato PDF junto con sus correspondientes archivos OCR descargables en texto plano. La calidad del OCR es variable debido a factores como la fecha de digitalización y el estado de conservación de los originales. Parte del corpus incluye correcciones manuales colaborativas, que constituyen recursos de gran valor como datos de referencia (“ground truth”) para el entrenamiento y evaluación de sistemas automáticos.

Idioma(s)

Español

Enlace descripción Dataset

https://zenodo.org/records/15166903

Año

2025

Anotaciones

El conjunto de datos incluye información de etiquetado bibliográfico y estructural asociada a cada publicación y número, como el título, la fecha, el número de edición y los metadatos de colección proporcionados por la BNE. Además, los archivos de texto completo derivados del OCR conservan señales estructurales básicas (por ejemplo, segmentación por páginas y por números), lo que permite la alineación entre las imágenes escaneadas, los PDFs y su contenido textual correspondiente para su posterior procesamiento y anotación.

Formato

txt

Acceso a datos

Publico

Enlace acceso a datos

https://zenodo.org/records/15166903

Publicación

Montejo-Ráez, A. et al. 2025. Overview of PastReader at IberLEF 2025: Transcribing Texts From the Past. Procesamiento del Lenguaje Natural, 75, pp. 453-460.

Enlace publicación

http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/6767

NLP Topic

transcripción automática

Número de unidades

12195

Documentos

12195

Tamaño

12195.00MB

Tamaño set entrenamiento

8959

Tamaño set evaluación

2736

Tamaño set desarrollo

500

Inicie sesión o registrese para enviar comentarios