En los últimos años, cada vez son más los libros de época que las bibliotecas y archivos ponen gratuitamente a disposición de lectores e investigadores en versión digitalizada, para su consulta o descarga en formato PDF. Frecuentemente, esos libros llevan ya aplicado un OCR (reconocimiento óptico de caracteres), lo que permite hacer búsquedas dentro del libro; si no es así, resulta sencillo aplicar nosotros mismos un OCR al libro digitalizado, usando una cualquiera de la multitud de herramientas de edición de PDFs disponibles de forma comercial o gratuita.
Esa tarea de OCR suele ser imperfecta: los textos obtenidos contienen normalmente numerosos errores, así como caracteres no alfabéticos (retornos de carro duros, caracteres de nueva línea u otros caracteres no imprimibles). De modo que, para poder reutilizar el contenido de esos libros (por ejemplo, seleccionando y copiando párrafos de cara a incluirlos en un documento nuestro), es preciso «limpiar» los textos deseados. Para evitar tener que hacer esa limpieza de forma manual, podemos usar un editor de texto ASCII con visualización de caracteres de formato y funciones de búsqueda y sustitución avanzadas. El que yo utilizo es Notepad++.
En lo que a nosotros nos interesa, dos de los más relevantes (existen muchísimos otros) repositorios de libros de época digitalizados son:
Gallica (bnf.fr), el repositorio de la Biblioteca Nacional de Francia.
Biblioteca Digital Hispánica (BDH), el repositorio de la Biblioteca Nacional de España.
En ambos puede consultarse en línea el contenido de los libros deseados y, en la mayoría de los casos, descargar el PDF para consultar después a nuestra conveniencia.
Por ejemplo, en esta página se pueden descargar las memorias de Louis-François-Joseph de Bausset-Roquefort, Prefecto del Palacio Imperial, que en 1808 actuaba como traductor de español para Napoleón y nos ha dejado algunos apuntes interesantes:

Deja un comentario