Blog

Vendredi 05 décembre 2008

Imprimer cet article Envoyer cet article à un ami Partager cet article sur Twitter Partager cet article sur Facebook

Google books : le vrai piège

Le Livre

76
76.jpg
Félix Bruzzone est un écrivain et éditeur argentin. 76 est le deuxième livre qu’il consacre à la question des disparus dans son pays.

par Félix Bruzzone

Editorial Tamarisco

L'annonce par Google de numériser des bibliothèques entières a, en son temps, déclenché les ires de tous les Jeanneney du monde. À bien des égards, ils n'ont pas eu tort. Pour autant, la question la plus essentielle n'a pas encore été présentée ou soulignée comme elle le méritait, alors que le programme de numérisation de masse de Google date déjà de plusieurs années. Quelle est cette question ? Elle porte sur la nature précise du document numérique que nous offre Google chaque fois que les lois le permettent.
La procédure, on le sait, est d'une simplicité enfantine. Je me place dans Google Books et j'inscris ma requête au bon endroit pour immédiatement obtenir le résultat. Tapons « Bovary » pour voir, et immédiatement se révèle une liste de possibilités, dont la première est le livre complet, disponible par le biais du Taylor Institute d'Oxford. Prenons cet exemplaire et affichons-le. Superbe ! Tout y est, y compris les illustrations dans une édition datant de 1885 (A. Quantin éditeur-imprimeur). Cherchons maintenant « Homais » ; le voilà qui apparaît trente fois, chaque fois accompagné d'un court passage et de la page correspondante. Voilà en vérité un outil de travail impressionnant.
L'étape suivante paraît évidente : je veux cet exemplaire ici, chez moi. Aucun problème ! Obligeamment, Google nous permet de télécharger le fichier offert. Il nous permet aussi de le placer dans une bibliothèque personnalisée (en ligne). Pour couronner le tout, on trouve une invite à commentaire. Malgré tout, l'instinct de possession reprend vite le dessus, et je fais venir le fichier, gros de ses six-sept méga-octets. Je viens de devenir l'heureux propriétaire d'une édition de 1885 de Madame Bovary.
Mais de quoi suis-je réellement propriétaire ? Pour voir, je vais afficher le fichier maintenant localisé sur mon disque dur et vérifier ce que je peux faire avec. Je peux le lire à l'écran mais lire tout un livre à l'ordinateur, très peu pour moi ! Faisons quelque chose de mieux et recherchons « Homais » de nouveau. Docilement, mon lecteur de fichiers pdf cherche, cherche, et, au bout de quelques secondes m'annonce qu'il ne trouve rien. Madame Bovary sans Homais, ce n'est plus Madame Bovary. Que se passe-t-il donc ?
La réponse est simple. Google numérise à toute vitesse des millions de pages-images. Ensuite, en utilisant des logiciels de reconnaissance de caractères, il se crée un fichier texte de ces pages images. L'utilisateur, à condition de passer par Google, visionne la page image, mais il peut aussi faire usage du fichier texte invisible pour retrouver, par exemple, les occurrences de « Homais » dans le roman. Malheureusement, quand il télécharge les pages-images du roman de Flaubert, le fichier texte ne l'accompagne pas. Le résultat est donc un objet lisible à l'écran, point final. La recherche de « Homais » par ordinateur n'est plus possible.
Qu'à cela ne tienne, je puis imprimer ce roman. Effectivement, on peut imprimer les 472 pages de ce fichier et, peut-être, les faire relier quelque part... Mieux vaut probablement placer ce fichier sur un lecteur de eBooks et ainsi le lire plus confortablement que sur un écran. C'est un petit progrès, mais c'est le seul. Cela dit, le résultat n'est quand même pas nul ! Avec Google, on a accès à toutes sortes de textes, y compris des textes rares ou des éditions anciennes d'ouvrages célèbres qui sont désormais dans le domaine public.
Au final, la générosité de Google dissimule quelque chose de beaucoup plus profond et important. Rechercher les occurrences de « Homais » dans le roman de Flaubert ne peut s'effectuer que si l'on a accès à une version du fichier ouverte aux opérations algorithmiques des ordinateurs et de leurs logiciels. Le grand secret, c'est que cette dimension nouvelle de nos documents est en train de prendre de plus en plus d'importance. Le grand secret, c'est que Google se réserve cette version du document. Ce que cherche Google, c'est de devenir le système d'exploitation dominant, voire unique, de cette algorithmique. Vous cherchez quelque chose ? Passez par Google ! Sinon, restez chez Gutenberg et amusez-vous bien ! Et retrouvez les trente occurrences de « Homais »...
La menace de Google, ce n'est pas une question de diversité culturelle. Mon Flaubert arrive d'Oxford, après tout. Cette diversité culturelle, elle se fonde sur les collections des bibliothèques et non sur le processus de numérisation. La menace de Google, c'est de monopoliser tout le champ algorithmique en train de croître autour des documents numérisés. Grâce à cette algorithmique, la lecture va être profondément enrichie et même modifiée. Par conséquent, ceux qui ne passeront pas par Google demeureront coincés dans le XXe siècle.

Commentaires
  • Vous savez que sur Wikisource vous pouvez également lire Madame Bovary et que, le mode texte étant disponible, vous pouvez continuer à faire la recherche dans le texte en l'ayant téléchargé ? ;-) Bonne lecture... http://fr.wikisource.org/wiki/Madame_Bovary

    Rédigé par : Adrienne Alix le 15/12/2008

  • Merci Adrienne (si vous me le permettez). Merci surtout de pointer en direction d'un projet qui, justement, ouvre le document numérique à tous les usages, y compris ceux fondés sur une « lecture » par ordinateur. C'est précisément la différence entre Wikisource, Open Content Alliance, Projet Gutenberg, etc., d'une part, et Google d'autre part, qui m'importe. C'est aussi à l'aune de cette différence qu'il faut jauger des projets de numérisation comme Gallica où trop de textes se présentent sous forme d'images. Parfois certains services publics cherchent à contrôler autant (sinon plus) que certaines entreprises privées. Est-ce l'intention de Gallica ? Je l'ignore, et j'ose espérer que ce n'est pas le cas, mais l'apparence demeure. Une riposte intelligente consisterait à organiser des projets de reconnaissance optique de caractères de manière distribuée, par exemple en intégrant ces exercices dans le programme des écoles.

    Rédigé par : Jean-Claude Guédon le 06/01/2009

  • Je crois qu’il me faut être très honnête avec vous... je vous ai copieusement « étrillé » sur mon blog, après avoir lu en parallèle votre billet et l’interview de Robert Darnton. Si vous voulez voir ce que j'ai pu « balancer », c'est là : http://compteurdedit.over-blog.com/article-25806216.html Ici je m'étais contentée de vous envoyer sur Wikisource, j'aurais dû être plus franche. Maintenant, je lis vos autres billets et je me dis que je me suis sans doute trompée sur votre compte. J'ai jugé trop hâtivement apparemment. J'espère que vous m'en excuserez. Si vous souhaitez que je modifie mon billet, ou que je publie un rectificatif (je crois que je vais faire demain un rectificatif de toutes façons), n'hésitez pas à me le dire. Il y a juste une chose que je ne comprends pas : vous avez marqué dans votre billet que Google confisquait les fichiers textes de ses numérisations. À ma connaissance ils n'ont pas ces fichiers textes, juste des OCR. Avez-vous d'autres informations qui pourraient me faire dire que je me suis trompée ? Cordialement, et en espérant en votre mansuétude :-)

    Rédigé par : Adrienne Alix le 21/01/2009

  • Je vais répondre derechef à Adrienne en commençant par dire que ce qu'elle a écrit n'est pas si grave, qu'un bon débat ne nécessite pas d'excuses, et en lui demandant de surcroît de m'excuser à mon tour pour une réponse aussi tardive. Des voyages et autres impédimenta personnels ne m'ont pas fait repérer sa réponse suffisamment rapidement. Il y a eu, je crois, méprise sur l'objection. En fait, je l'ai posée directement à Robert Darnton (que je connais un peu personnellement et apprécie énormément) en réponse à son article de la New York Review of Books. Ma réponse se trouve à l'URL suivant : http://www.nybooks.com/articles/21732 (hélas, en anglais). Bob Darnton a répondu à mon objection, et il dit en particulier : « I share Jean-Claude Guédon's worry about the danger of one company monopolizing the "computational potential" of digitized texts, and I agree that the Open Content Alliance is a good thing. But is it an adequate alternative to Google? » Que la BNF fasse pire que Google, c'est une question réelle, mais autre que celle que je posais. Ce que j'aimerais savoir, par exemple, c'est la question suivante : Si l'on peut télécharger un texte de la BNF, nous donnera-t-elle aussi le droit de télécharger l'OCR qui permet de faire les recherches que l'on désire dans ce document ? Incidemment, la BNF pourrait offrir des OCR de base à tout le monde et monter un programme, par exemple dans les écoles, qui conduirait à corriger les OCR. Voilà aussi une façon de répondre à la dernière question de Bob Darnton. Au total, notre compréhension du document numérique commence à se développer, mais elle est encore embryonnaire. Google comprend ce domaine un peu mieux que la plupart d'entre nous et tente d'en profiter pour se monter une rente. Voilà tout. Mais, je le crois profondément, il y a des moyens de réagir.

    Rédigé par : Jean-Claude Guédon le 22/01/2009

  • Identifiez vous pour pouvoir laisser un commentaire. Saisissez vos identifiants dans l'espace abonné ou inscrivez-vous en un clic

Tous les Blogs

L'auteur de l'article

Jean-Claude Guédon

Jean-Claude Guédon a suivi une formation en histoire des sciences. Il est professeur de littérature comparée à l'Université de Montréal. Il tient un blog consacré à l'économie numérique sur le site de Books.

De cet auteur

Le planisphère de Books

Articles, livres et auteurs par pays