El dataset está compuesto por publicaciones históricas de prensa en dominio público digitalizadas por la Biblioteca Nacional de España (BNE). Abarca contenidos desde el siglo XVII hasta el XX y está disponible en formato PDF junto con sus correspondientes archivos OCR descargables en texto plano. La calidad del OCR es variable debido a factores como la fecha de digitalización y el estado de conservación de los originales. Parte del corpus incluye correcciones manuales colaborativas, que constituyen recursos de gran valor como datos de referencia (“ground truth”) para el entrenamiento y evaluación de sistemas automáticos.
- Inicie sesión o registrese para enviar comentarios

