transcripción automática

PastReader-2025

El dataset está compuesto por publicaciones históricas de prensa en dominio público digitalizadas por la Biblioteca Nacional de España (BNE). Abarca contenidos desde el siglo XVII hasta el XX y está disponible en formato PDF junto con sus correspondientes archivos OCR descargables en texto plano. La calidad del OCR es variable debido a factores como la fecha de digitalización y el estado de conservación de los originales.