Páginas

quarta-feira, 24 de janeiro de 2018

Sobre a Digitalização de Livros

Uma atividade comum entre os pais educadores é a digitalização de livros ou atividades para seus estudantes. Algumas vezes desejamos preservar um livro consumível para uso posterior com outro estudante ou talvez recuperar um livro antigo em mau estado de conservação.

Para aqueles que possuem problemas respiratórios então, livros antigos são propícios a desencadear ataques de espirros ou asma. E falo por experiência própria. Não é possível entrar em um sebo sem uma boa dose de anti-histamínico.

Para tentar diminuir esse tormento, decidimos recuperar alguns livros em formato digital. Chegamos até a imprimir cópias de livros que achamos relevantes. No começo utilizávamos o scanner de uma impressora multifuncional. Possuímos uma antiga impressora com ADF (Automatic Document Feeder - Alimentador Automático de Documentos) que facilita muito o trabalho de alimentação das páginas a serem digitalizadas. É uma funcionalidade muito boa, mas necessita que as folhas estejam soltas, pois cada folha é puxada individualmente para o scanner. E essa multifuncional não possui um scanner duplex, ou seja, cada folha precisa passar duas vezes pelo processo de digitalização para obtermos a cópia de ambos os lados.

O primeiro passo, então, é cortar o livro. Como guilhotinas para grandes quantidades de páginas são muito caras, resolvi desmontar os livros separando em livretos. É fácil perceber onde separar ao olhar as bordas das páginas perto da lombada do livro. Corto o livro com um bom estilete. Após isso, corto a borda dos livretos com o próprio estilete utilizando uma régua, separando as folhas. É bom ter cuidado para manter as páginas de todos os livretos no mesmo tamanho.




Separadas todas as folhas, passo para o processo de digitalização. No Linux, utilizo o programa XSane. Prefiro realizar a cópia na melhor qualidade possível, pois é mais fácil realizar os ajustes por software depois se a cópia estiver boa. A saída do XSane são imagens PNM (portable anymap format) que facilmente converto para JPEG (Joint Photographic Experts Group) utilizando a seguinte linha de comando: "for img in *.pnm; do convert $img $img.jpg; done".

Então passo ao pós processamento das imagens para pequenas correções, como divisões das colunas, orientação e alinhamento. Para isso utilizo o software Scantailor. A saída do Scantailor são imagens do tipo TIFF (Tagged Image File Format). Para transformar as imagens em PDF (Portable Document Format), utilizo um script de conversão de imagens para PDF que permite redimensionar as imagens para o tamanho A4, o que facilita a impressão. O script está disponível aqui.

Após isso, utilizo um programa para reconhecimento do texto a fim de possibilitar a busca textual dentro do pdf. Para tanto, uso o programa pdfsandwich. O comando exato é esse: "pdfsandwich -nopreproc -rgb -lang por arquivo.pdf". É necessário que o programa tesseract esteja instalado, pois é ele que fará o Reconhecimento Ótico de Caracteres ou OCR (Optical Character Recognition).
   
E com isso o trabalho de recuperação do livro está completo. Coloco aqui um exemplo do resultado deste trabalho, apesar do conteúdo do livro ser deplorável, pois há erros ortográficos em demasia.