[story time] Numériser un Livre Ancien : Mon nouveau projet bénévole

Il y a 20 ans, un jour d’été, un livre aussi épais qu’une brique a atterri dans le salon de ma grand-mère maternelle, 40 rue To Hien Thanh à Hanoi. Elle avait l’habitude d’échanger des livres avec ses amis lettrés et francophones. Un de ses amis, après avoir acheté ce livre tout juste sorti de la maison d’édition, s’est empressé de lui montrer. Qui était ce monsieur ? Je ne m’en souviens plus.

Même si j’avais l’habitude de voir de nouveaux livres arriver chaque semaine, c’était bien la première fois que je m’y intéressais. D’habitude, les livres étaient en français, mais cette fois-ci, il était en vietnamien, énorme, impossible à rater. Enfin un livre que je pouvais comprendre !

La couverture turquoise était d’un très mauvais goût, le titre ne me disait rien, mais en feuilletant les premières pages, j’ai été complètement séduite et ai lu d’une traite plusieurs chapitres. Un livre historique aussi passionnant ? C’était du jamais-vu !

Ma grand-mère ne semblait pas être du même avis, car le livre est parti rejoindre son propriétaire aussi vite qu’il est arrivé et il n’a plus jamais réapparu chez nous. Tout ce que j’ai pu me souvenir, c’était (1) son titre (2) qu’il existait.

Je ne l’ai jamais oublié.

De temps en temps, en flânant dans des groupes Facebook d’amateurs de livres, je demandais si quelqu’un l’avait chez lui… Certains en ont entendu parler, d’autres ont pu le lire mais ne l’ont plus. Au fil des années, j’ai pu obtenir quelques informations supplémentaires :

  • c’est un livre édité à quelques milliers d’exemplaires seulement, d’où sa rareté
  • il y a un exemplaire à la bibliothèque nationale à Hanoi, un autre à Ho Chi Minh ville et trois exemplaires dans trois bibliothèques aux Etats-Unis
  • le livre est bourré de fautes d’orthographe
  • il manque 3 chapitres dans la première édition, pas à cause de la censure, mais à cause d’une négligence

En mai 2021, complètement par hasard, un vietnamien me contacte sur Facebook pour me demander des informations sur ma liseuse/tablette à écrire reMarkable. De fil en aiguille, le courant passe bien, et il me révèle un « secret » : il est 100% équipé pour numériser n’importe quel livre et le transformer en e-book, grâce à la reconnaissance automatique des caractères (logiciels OCR). Il a pu, ainsi, numériser toute sa bibliothèque, composée de livres très anciens, comme des livres sortis récemment – dont la version numérique n’existe pas encore. C’est un secret, car il ne partage sa bibliothèque avec personne. A ce moment-là, je n’avais aucunement l’intention de numériser quoi que ce soit, mais je suis de nature curieuse, donc je lui pose toutes les questions techniques qui me passent par la tête, et il me révèle qu’au Vietnam, comme les livres numérisés se font rares, il y a plein de bénévoles qui font la même chose que lui – certains traduisent des romans entiers en vietnamien – mais ils partagent les ebooks gratuitement en ligne, que je devrais y jeter un coup d’œil pour trouver des livres vietnamiens que je n’arrive pas à acheter depuis l’étranger. A la fin, il m’offre la version numérisée d’un livre que je convoite, qui n’est sorti qu’en version papier pour le moment et qu’il vient de numériser – en me faisant promettre d’acheter l’ebook quand il sera disponible. Ce que je fais quelques semaines plus tard.

En septembre 2021, je tombe par hasard sur un groupe de partage de livres et je repose ma question habituelle « est-ce que quelqu’un a le livre XYZ chez lui? »

La réponse tant attendue depuis des années arrive : « oui, moi ! je l’ai en version scan ».

Les mains tremblantes, je suis tellement proche du but que je lui envoie un message immédiatement.

« Il est tard, parlons-en demain! »

En agonie et en insomnie, j’attends le nouveau jour avec impatience. Est-ce la première édition, où il manque 3 chapitres ? Est-ce que son scan est complet et de qualité ?

S’en suit une discussion en privé où il veut connaître mon intention avant de me donner le scan du livre. Je lui dis avoir cherché le livre pendant 20 ans. Je sais que beaucoup d’autres sont dans le même cas que moi, donc je lui promets de numériser le livre, corriger les fautes d’orthographe avant de le distribuer gratuitement en forme de livre numérique.

Il m’envoie la couverture. Le scan qu’il a, c’est celui de la 2ème édition – où il ne manque aucun chapitre. Le livre a été scanné par une imprimante/scanner de qualité. C’est un signe !

Par contre, le livre fait 1300 pages.

Les jours qui ont suivi sont longs, pleins de doutes et de sueur. Après ma journée de travail, j’en entame une autre en me mettant immédiatement au projet de numérisation, entre 19h et minuit, et tout le week-end, et ce, pendant trois semaines. Les étapes de numérisation sont nombreuses et dignes du process d’une maison d’édition.

  1. Récupérer les scans (images) et les classer dans le bon ordre (là, je suis reconnaissante qu’il m’ait envoyé des images au lieu d’un PDF, ce qui facilite le tri. Une page = une image)
  2. Utiliser un logiciel pour reconnaître les caractères (OCR, j’utilise ABBYY Finereader, qui fonctionne très bien pour le vietnamien)
  3. La mise en page est à refaire complètement, car, pour éviter des erreurs, il vaut mieux exporter le texte OCR en format .txt au lieu du format .doc avec sa mise en page cassée
  4. Le texte est donc mis sur un fichier Word, c’est la méthode la plus simple
  5. Les footnotes sont à refaire complètement
  6. Fautes d’orthographe (ce qui prend le plus de temps) : La reconnaissance des charactères (OCR) a ses limites, il y a de nombreuses erreurs. De plus, le livre original a lui-même des fautes d’orthographe. Je dois donc comparer le texte avec le scan, mais aussi prendre de la distance par rapport au texte original (version scan), pour mieux repérer les fautes.
    1. J’utilise à la fois Word & Google Docs pour repérer les fautes de base. Le texte étant trop long, je dois uploader sur Google Docs 2 chapitres à la fois sinon ça plante
    2. Je relis ensuite tout le texte deux fois pour corriger les fautes, à la fois sur ma liseuse reMarkable (plus pratique pour corriger avec le stylo) et sur ordinateur (en zoom x 8 pour mieux voir les fautes)
    3. La nouvelle fonctionnalité « split screen » sur l’iPad permet de comparer le scan avec la version numérisée en même temps, ce qui est super pratique.
    4. Je divise le livre en plusieurs parties et demande à d’autres bénévoles de les lire aussi, en utilisant « track changes » sur Word pour me signaler les fautes qu’ils voient.

Au bout de 3 semaines, le livre est enfin prêt ! Pour exporter en format numérique, j’utilise le logiciel Calibre, qui permet d’ajouter une couverture, la description et exporter sous différents formats. Pour celui-ci, je propose essentiellement le format compatible Kindle : awz3, mobi. Epub pour les liseuses comme Kobo, reMarkable. Et une version PDF pour ceux qui le lisent sur le téléphone, avec un espacement et une police suffisamment grands. Tout est étudié et réfléchi pour proposer la meilleure expérience de lecture possible.

JB ne comprend pas pourquoi je fais ça. J’avoue que je ne sais pas exactement ce qui me pousse à y passer mes jours et nuits.

Je pense que le temps que l’auteur a passé à écrire ce livre est colossal, et qu’il faut, justement, que quelqu’un se dévoue pour le faire connaître, pour ne pas le gâcher.

Le livre est sorti trop tôt, le contenu était trop osé pour l’époque, les mots choisis trop difficiles – c’est pour ça qu’il dormait principalement dans les bibliothèques des lettrés, qui n’auraient jamais pensé à numériser quoi que ce soit. Mais les temps ont changé. Grâce aux footnotes (notes en bas de page), les mots difficiles peuvent être expliqués, les passages osés le sont moins qu’un film passé à la télévision le dimanche, et surtout, avec la version numérique, tout le monde pourra enfin y avoir accès.

Lors de la première relecture, un personnage historique mentionné dans le livre a attiré mon attention. Plus je lis, et plus je me dis que nous sommes peut-être liés. Nous avons le même nom de famille. Ce n’est pas un nom de famille rare au Vietnam, mais ce n’est pas populaire non plus. J’appelle mes parents, qui ne sont même pas au courant de mon projet, et leur demande si nous en sommes des descendants.

Mon père me dit que « oui, nous venons de cette branche ! » et me raconte comment un grand-oncle, passionné de généalogique, a pu remonter jusqu’à cette époque et a affirmé que nous partagions le même arbre généalogique que ce personnage célèbre.

Pourquoi avoir mis autant de temps à le rechercher ? Pourquoi avoir mis autant d’effort à numériser et corriger un livre aussi long et aussi difficile ? En voilà la raison !

Au fond de moi, je sais que malgré de nombreux projets de numérisation, les bénévoles ont leurs limites et je suis probablement la mieux placée pour numériser celui-ci, poussée par une longue attente de 20 ans.

Je ne peux malheureusement pas partager le livre avec vous, car il est toujours protégé par les droits d’auteur. Mais je me permets de le numériser car je pense que c’est nécessaire, parce qu’aucune édition vietnamienne ne le fera, par flemme (ils ont déjà la flemme de relire et corriger les fautes d’orthographe de la version papier). Je me pose aussi beaucoup de questions quant à la mention de mon email – pour recevoir des feedbacks sur les fautes d’orthographe. Est-ce vraiment nécessaire ? Finalement, je resterai anonyme et personne ne saura, en lisant l’ebook, que c’est moi l’ai numérisé.

Maintenant que le projet est terminé, je ressens une entière satisfaction, mais aussi beaucoup d’appréhension, comme si c’était mon propre livre – alors que je ne l’ai pas écrit…

Mon avis sur la carte de paiement Accor
Test & Avis de l'enceinte de voyage Bose Soundlink Micro
    Anh

    Anh est franco-vietnamienne et a vécu dans de nombreux pays (Russie, Australie, France, Norvège, Vietnam). Elle aime par dessus tout les chats, le DIY et la bonne cuisine. Ayant une très bonne mémoire, Anh est capable de vous donner le tarif du petit bus pris entre le Chili et la Bolivie qu'elle a pris il y a 3 ans.

    Tous Mes Articles
    2 commentaires
    • Répondre Michaël Launay

      25 novembre 2022, 19 h 46 min

      Bonjour,
      Je suis confronté à un problème équivalent et votre expérience m’est précieuse :
      J’ai acquis une série de livres datant de 1848 à 1910 et je souhaite les numériser.
      J’ai acquis un scanner CZUR ET 24 avec le logiciel d’OCR d’ABBYY, mais les premiers tests sont loin d’être parfaits.
      Beaucoup d’erreurs pourraient être évitées en appliquant des règles simples comme par exemple éliminer toutes ponctuations seules (les défauts du livre en sont l’origine).
      Je compte ensuite passer les textes dans des correcteurs comme Antidote de Druide.
      Bref, quels sont les paramètres d’océrisations que vous avez utilisés et qui se sont révélés les meilleurs ?

      • Répondre Anh

        25 novembre 2022, 22 h 03 min

        Bonjour,
        Je n’ai pas d’astuces à partager car mon livre est beaucoup plus récent et celui qui l’a scanné l’a bien fait.

        En corrigeant une cinquantaine de pages, vous verrez très vite le genre d’erreurs qui reviennent régulièrement et du coup les remplacements du type Ctrl+H aideront énormément. Enfin, je copie colle le texte sur Google Docs pour parfaire la correction orthographique. Le meilleur reste tout de même la correction manuelle.

        Bon courage et bravo pour votre projet !

        Anh

    Write a comment

    Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.