Pourquoi numériser ses livres ?

Avant d’acheter une liseuse numérique, j’ai dû opérer une réflexion de fond sur la nécessité de posséder physiquement un livre. Selon moi, ce n’est intéressant que si :

  • On aime lire et relire les même livres ; personnellement, je n’ai plus le temps de relire un livre qui m’a plu, même si ce n’est pas l’envie qui manque (1984, les racines du mal, etc.)
  • On a l’occasion de prêter ses livres à d’autres personnes.

Mais, au fond, les bibliothèques publiques ne servent-elles pas à ça ? J’aime l’objet « livre », mais les étagères viennent à manquer, et jeter un livre est un crève-cœur, d’autant plus s’il m’a plu. Enfin, le livre numérique peut être corrigé des inépuisables coquilles – certes, mais pour qui, puisqu’on ne le relira pas ?

Cependant, les éditeurs n’ont pas encore converti l’ensemble de leur catalogue, voire même, certains ne le font même pas pour leurs nouveautés. Luttons, et numérisons nous-même !

Première étape – la prise de vue

Un carton coupé en deux, une lampe de bureau, un cadre photo dont on aura récupéré le verre, et c’est parti ! Montant de l’investissement : moins de 40 euros, l’essentiel étant le prix du pied photo que je n’avais pas.

Au début, c’est un peu fastidieux ; il faut prendre le rythme. Vérifier toutes les quinze – vingt photos si le cadrage est toujours bon. Vérifier que les pages paires ne viennent pas gêner la prise de vue des pages impaires, et réciproquement. Personnellement, j’ai utilisé le fond du cadre photo pour écraser le livre.

Bref, au final, il faut deux heures pour photographier 500 pages. Puis revoir rapidement les clichés, et refaire ceux qui sont ratés.

Deuxième étape – le filtrage logiciel

Grâce à ScanTailor, cette étape est vraiment facile ! Il s’agit d’égaliser les clichés, pour n’en faire ressortir que le texte, en corrigeant les déformations de la prise de vue. C’est pour ça qu’il est importe que les clichés soient nets, quitte à ce qu’ils soient penchés ou déformés.

Petit bémol, ScanTailor ne prend pas en compte les informations EXIF des clichés. J’avais fait un script pour ajouter automatiquement l’orientation des pages par lot (toutes les pages paires sont orientées comme si, et les pages impaires dans l’autre sens), mais ça n’a pas eu d’effet sur ScanTailor. Il a donc fallu tourner DANS ScanTailor une page sur deux, ce qui est inutilement fastidieux.

ScanTailor fait tout à peu près automatiquement : identification de la zone de texte, réalignement avec l’horizontale, correction de la déformation (ne pas hésiter à l’activer, ça marche plutôt très bien !). Il faut passer un peu de temps sur :

  • les pages qui contiennent peu de texte, celles-ci mettant à mal les algorithmes ;
  • les pages à la mise en page inhabituelle
  • la suppression des numéros de page lors de la prise en compte de la zone d’intérêt.

Au final, tout sort au format TIFF, et on peut si on veut s’en contenter pour en faire un ePub. Mais pas moi.

Troisième étape – la reconnaissance de caractères

Pour avoir essayé gocr, je peux le dire : tesseract obtient de bien meilleurs résultats ! La difficulté que j’ai rencontrée : la prise en charge du texte en italique, ou des mots anglais pour un texte français. Apparemment, il y a moyen d’apprendre de nouvelles fontes (avec pyTesseract par exemple), tout ceci reste encore à creuser.

 

La suite au prochain numéro !

Tags: