Páginas

quarta-feira, 24 de janeiro de 2018

Sobre a Digitalização de Livros

Uma atividade comum entre os pais educadores é a digitalização de livros ou atividades para seus estudantes. Algumas vezes desejamos preservar um livro consumível para uso posterior com outro estudante ou talvez recuperar um livro antigo em mau estado de conservação.

Para aqueles que possuem problemas respiratórios então, livros antigos são propícios a desencadear ataques de espirros ou asma. E falo por experiência própria. Não é possível entrar em um sebo sem uma boa dose de anti-histamínico.

Para tentar diminuir esse tormento, decidimos recuperar alguns livros em formato digital. Chegamos até a imprimir cópias de livros que achamos relevantes. No começo utilizávamos o scanner de uma impressora multifuncional. Possuímos uma antiga impressora com ADF (Automatic Document Feeder - Alimentador Automático de Documentos) que facilita muito o trabalho de alimentação das páginas a serem digitalizadas. É uma funcionalidade muito boa, mas necessita que as folhas estejam soltas, pois cada folha é puxada individualmente para o scanner. E essa multifuncional não possui um scanner duplex, ou seja, cada folha precisa passar duas vezes pelo processo de digitalização para obtermos a cópia de ambos os lados.

O primeiro passo, então, é cortar o livro. Como guilhotinas para grandes quantidades de páginas são muito caras, resolvi desmontar os livros separando em livretos. É fácil perceber onde separar ao olhar as bordas das páginas perto da lombada do livro. Corto o livro com um bom estilete. Após isso, corto a borda dos livretos com o próprio estilete utilizando uma régua, separando as folhas. É bom ter cuidado para manter as páginas de todos os livretos no mesmo tamanho.




Separadas todas as folhas, passo para o processo de digitalização. No Linux, utilizo o programa XSane. Prefiro realizar a cópia na melhor qualidade possível, pois é mais fácil realizar os ajustes por software depois se a cópia estiver boa. A saída do XSane são imagens PNM (portable anymap format) que facilmente converto para JPEG (Joint Photographic Experts Group) utilizando a seguinte linha de comando: "for img in *.pnm; do convert $img $img.jpg; done".

Então passo ao pós processamento das imagens para pequenas correções, como divisões das colunas, orientação e alinhamento. Para isso utilizo o software Scantailor. A saída do Scantailor são imagens do tipo TIFF (Tagged Image File Format). Para transformar as imagens em PDF (Portable Document Format), utilizo um script de conversão de imagens para PDF que permite redimensionar as imagens para o tamanho A4, o que facilita a impressão. O script está disponível aqui.

Após isso, utilizo um programa para reconhecimento do texto a fim de possibilitar a busca textual dentro do pdf. Para tanto, uso o programa pdfsandwich. O comando exato é esse: "pdfsandwich -nopreproc -rgb -lang por arquivo.pdf". É necessário que o programa tesseract esteja instalado, pois é ele que fará o Reconhecimento Ótico de Caracteres ou OCR (Optical Character Recognition).
   
E com isso o trabalho de recuperação do livro está completo. Coloco aqui um exemplo do resultado deste trabalho, apesar do conteúdo do livro ser deplorável, pois há erros ortográficos em demasia.

8 comentários:

  1. Para converter um lote de imagens para preto e branco com o limiar setado para 50%: mogrify -path temp -format "jpg" -threshold 50% -monochrome *.pnm
    Para setar o nível de cores: mogrify -level 20%,40%,1 arquivo.pnm (Geralmente abro gimp antes e faço essa modificação em uma imagem para ter uma estimativa de que valores usar para o black-point e para o white-point).

    ResponderExcluir
  2. Para fazer os booklets para impressão: pdfjam --landscape --signature 40 /path/to/your/document.pdf

    ResponderExcluir
  3. boa tarde
    Vcs possuem a digitalização destes dois livros que aparecem na foto? Geografia pitoresca e histórica do mundo?

    ResponderExcluir
    Respostas
    1. Oi, Laís. Possuímos sim. No entanto esse livro ainda é protegido por direito autoral. A lei brasileira estipula que uma obra passa para domínio público 70 anos após a morte do autor. V. M. Hillyer morreu em 1931, no entanto o seu tradutor para o português morreu em 1951. Assim sendo, somente no ano de 2022 poderei disponibilizá-lo.

      Excluir
    2. Eu gostaria muito de recebe-lo em 2022 se vc puder disponibilizar. Meu email é raqueltedesco20@gmail.com

      Excluir
  4. Olá Márcio. Procuro por esse livro Geografia Pitoresca para Crianças, mas não o encontro. Vc poderia me ajudar de alguma forma?

    ResponderExcluir
  5. Oi querida.. queria muito os livros digitalizados. Eu entendi sua explicação aí acima. Qndo for disponibilizar, agradeceria muito se pudesse enviar pro meu email. alicetcmp@gmail.com. muuuito obrigada :)

    ResponderExcluir