L’esprit critique ne prend pas de vacances ! Abonnez-vous à Books !

Le musée des erreurs de Google Books

Le saviez-vous ? On a écrit plus de cinq cents livres sur Internet avant 1950, Hamlet parle d’antiquités et d’objets de collection et Madame Bovary est un roman de Henry James… Quand la Grande Bibliothèque numérique rêvée par Google vire au cauchemar pour les universitaires tentés d’en faire un outil de recherche.

Le projet Google Books est en passe de devenir la plus grande bibliothèque numérique du monde – que les tribunaux et le ministère américain de la Justice avalisent ou non la proposition d’accord présentée par la firme (1). Ce pourrait bien être aussi la dernière. Forte de son avance substantielle sur ses rivaux et des relations nouées avec les bibliothèques et les éditeurs, la firme jouit désormais d’un monopole de fait ; aucun concurrent ne peut espérer combler l’écart, et la technologie ne fera pas baisser les coûts d’entrée sur ce marché : pareille aventure restera toujours très coûteuse en main-d’œuvre.
Voilà qui légitime les inquiétudes qui se sont exprimées concernant les questions de coût, d’accès et de protection de la vie privée. Mais, pour les chercheurs, la domination de Google pose une question particulière, tout aussi fondamentale : quelles garanties avons-nous que Google fera cela correctement ? Tout dépendant, bien sûr, de ce que « cela » veut dire. Google n’a cessé de changer de discours sur le projet. L’entreprise aime à parler de Google Books comme d’une « bibliothèque », mais les livres ne sont pour elle qu’une source d’information parmi d’autres, qu’elle entend intégrer au « Grand Google (2) ». Comme l’explique Sergey Brin, cofondateur de l’entreprise : « Nous avons simplement le sentiment que cela fait partie de notre mission fondamentale. Les livres contiennent de fabuleuses quantités d’informations. Souvent, quand j’effectue une recherche, ce que je trouve dans un livre est de très loin supérieur à ce que je trouve sur le Web. »
S’il en est ainsi, la qualité de Google Books sera jaugée uniquement à l’aune de sa contribution à cette activité familière que nous appelons « googliser », en hommage à la spécialité de la firme : la recherche d’informations à l’aide d’une série de mots-clés. Ce genre d’entreprise n’a nul besoin des « métadonnées », ces informations sur les ouvrages eux-mêmes – « qui, quoi, où et quand » – fournies par les catalogues des bibliothèques. Il suffit de trouver dans un livre le passage qui répond à nos besoins et de s’y engouffrer.
Mais on s’intéresse parfois à un livre pour autre chose que l’information qu’il contient, et « googliser » n’est alors pas d’un grand secours. Si l’on recherche une édition particulière de Feuilles d’herbe à partir du fameux « Je contiens des multitudes », c’est précisément ce que l’on obtient : des multitudes (3). Il faudrait pouvoir focaliser la recherche sur les métadonnées de l’ouvrage, comme lorsqu’on essaie de recenser toutes les éditions françaises du Contrat social de Rousseau publiées avant 1800 ou tous les recueils de sermons victoriens traitant du blasphème.

Poussées d’adrénaline chez les linguistes

On peut également s’intéresser aux livres pour leur valeur de témoignage sur l’état de la langue à une époque ou dans un genre donnés. La perspective de voir mis en ligne d’immenses fonds d’ouvrages anciens provoque, on l’imagine, des poussées d’adrénaline chez les linguistes et les lexico-fanatiques. Mais la perspective est tout aussi stimulante pour les historiens du social, de la vie politique ou des idées, ou pour les spécialistes de philologie littéraire, ancienne et nouvelle. Le vaste ensemble d’ouvrages déjà numérisés permet de suivre à la trace l’émergence au XVIIe siècle du mot bonheur en lieu et place de félicité, de mesurer statistiquement l’essor et le déclin de propagande ou de démocratie industrielle au XXe siècle, ou de sélectionner tous les romans victoriens qui contiennent l’expression « Cher lecteur ». Mais, pour ce type de questions, il faut des métadonnées fiables sur les dates de publication et la nomenclature des livres. Or les informations fournies par Google Books sont à cet égard une catastrophe absolue : un méli-mélo doublé d’un imbroglio triplé d’une gigantesque pagaille.
D’abord, les dates de publication. À en croire Google, 1899 fut, du point de vue littéraire, une « année miraculeuse ». Ce fut en effet l’année de parution de Un tueur sous la pluie (Raymond Chandler), des œuvres complètes de Dorothy Parker, de La Condition humaine (André Malraux), de Christine (Stephen King), de l’édition intégrale des nouvelles de Virginia Woolf, de Culture and Society, 1780-1950 (Raymond Williams) et de la biographie de Bob Dylan par Robert Shelton, pour ne citer que quelques œuvres. Peut-être y a-t-il une raison pour voir revenir si souvent 1899, mais ces erreurs de dates traversent les siècles. Un ouvrage de Peter F. Drucker est daté de 1905, soit quatre ans avant la naissance du célèbre spécialiste en management ; une correspondance de Virginia Woolf est datée de 1900, alors que la romancière avait huit ans. Le Bûcher des vanités, de Tom Wolfe remonterait à 1888 [au lieu de 1987], tandis qu’une édition de Ce que savait Maisie de Henry James est datée de 1848 [au lieu de 1897].
Certes, les bourdes occasionnelles sont inévitables dans un corpus de cette ampleur ; mais les erreurs sont ici endémiques. Une recherche sur le mot « Internet » dans des livres antérieurs à 1950 donne 527 résultats ; pour la même période, « Medicare », le régime américain d’assurance maladie [créé en 1965], en donne près de 1 600. On peut aussi entrer les noms d’écrivains célèbres ou de personnalités, en limitant la recherche à des œuvres publiées avant leur naissance. « Charles Dickens » produit 182 résultats pour des publications antérieures à 1812, la majeure partie d’entre elles concernant bel et bien l’écrivain. Le même type de recherche donne 81 résultats pour Rudyard Kipling, 115 pour Greta Garbo, 325 pour Woody Allen et 29 pour Barack Obama (à moins qu’il ne s’agisse d’un autre Barack Obama).
Quelle est la fréquence de telles erreurs ? Une recherche portant sur des ouvrages publiés avant 1920 et mentionnant le mot « barre chocolatée » donne 66 résultats, dont 46 – soit 70 % – sont mal datés. Je ne pense pas que ce soit représentatif de la proportion globale de métadonnées erronées, même si elles sont beaucoup plus courantes pour les ouvrages anciens que pour les
titres récents confiés directement à Google par les éditeurs. Mais même si la proportion d’erreurs de ce type n’est que de 5 %, cela signifie que le corpus est criblé de centaines de milliers de données fausses.
Google reconnaît ces faiblesses, mais affirme qu’elles incombent aux bibliothèques ou aux maisons d’édition qui lui procurent les livres. Et il est vrai que la firme a reçu des lots systématiquement mal datés, comme cet ensemble de livres en langue portugaise, uniformément estampillé 1899. Cela étant, bon nombre de ces erreurs sont incontestablement le fait de Google, en raison notamment des aléas de l’extraction de la date de publication à partir du texte scanné. Une histoire des ex-libris détenue par la bibliothèque universitaire de Harvard, correctement répertoriée dans le catalogue à 1901, est datée de 1574 par Google, à cause d’un ex-libris armorié de l’époque élisabéthaine figurant sur le frontispice du volume. London of To-Day, un guide touristique de 1890, est correctement catalogué par Harvard, mais Google le date de 1774, en raison d’une publicité pour une marque de bonneterie figurant dans les pages liminaires, ladite marque s’enorgueillissant d’avoir été fondée cette année-là.
Et puis, il y a les erreurs de classification, dont l’énoncé a des accents de poème surréaliste. The American Language [« La langue américaine »] de H.L. Mencken est classé dans la catégorie « Famille et couple ». Une édition française de Hamlet et une édition japonaise de Madame Bovary se voient recensées dans « Antiquités et objets de collection » (une édition anglaise de 1930 du roman de Flaubert est classée dans la catégorie « Médecins », ce qui, à tout prendre, est moins idiot). Une édition de Moby Dick apparaît dans la section « Informatique ». The Cat Lover’s Book of Fascinating Facts [« Quelques faits remarquables pour l’amateur de chats »] figure sous la rubrique « Technologie et ingénierie ».
On réalise à quel point ces erreurs sont monnaie courante lorsqu’on recherche toutes les catégories attribuées à une œuvre célèbre. Sur les dix premiers résultats pour le roman de Laurence Sterne Tristram Shandy (4), quatre placent l’œuvre en « Fiction », quatre en « Famille et couple », un dans « Biographie et autobiographie » et un en « Hors catégorie ». D’autres éditions sont classées « Recueils littéraires », « Histoire » ou « Musique ». Les dix premiers résultats pour Feuilles d’herbe sont tour à tour rangés sous « Poésie », « Jeunesse », « Fiction », « Critique littéraire », « Biographie et autobiographie » et, de façon confondante, « Contrefaçons ».
Là encore, Google a rejeté la faute sur les bibliothèques et les éditeurs. Mais les bibliothèques ne peuvent être responsables de livres classés par erreur sous « Santé et forme » et « Antiquités et objets de collection », pour la simple raison que c’est là une nomenclature du Book Industry Standards and Communications (Bisac), utilisée par les éditeurs pour indiquer aux libraires dans quels rayons ranger les livres. Elle n’a rien à voir avec les systèmes de classification en vigueur dans les bibliothèques. Et, dans la mesure où l’usage de la nomenclature Bisac n’est répandu que depuis dix ou vingt ans, seul Google peut être tenu pour responsable de son emploi inapproprié pour les nombreux livres publiés antérieurement – comme l’édition 1919 de Robinson Crusoe, classée dans « Artisanat et loisirs ».
La virtuosité algorithmique de Google apparaît aussi dans la classification d’ouvrages récents. L’édition de 2003 de Unbearable Weight. Feminism, Western Culture, and the Body [« Un poids intolérable. Le féminisme, la culture occidentale et le corps »] de Susan Bordo (daté de 1899) est classée en « Santé », étiquetage que l’on imagine mal venir de l’éditeur, University of California Press, mais plutôt d’un système de classement automatique qui s’en remet au titre. De même, une biographie de Mae West, parue en 2001, est rangée en « Religion » par Google sur la base du sous-titre, An Icon in Black and White [« Une icône en noir et blanc »].

Une calamité pour les chercheurs

Mais quand bien même la nomenclature Bisac serait-elle utilisée à bon escient, il reste à résoudre cette question plus importante : pourquoi Google veut-il donc l’utiliser ? Des salariés de l’entreprise m’ont confié qu’il ne s’agissait pas d’un souhait des éditeurs. Il se pourrait bien que quelqu’un l’ait jugée utile au référencement des publicités. Quoi qu’il en soit, l’utilisation de cette nomenclature est une calamité pour la recherche sur les livres. Le système Bisac est parfait pour une librairie ou pour une petite bibliothèque publique, où clients et lecteurs choisissent les volumes directement sur les rayonnages. Mais il n’est d’aucune utilité quand on cherche un ouvrage à l’aveuglette dans une collection de plusieurs millions de titres. Ainsi, la catégorie « Jeunesse – Documents » du système Bisac comporte près de trois cents sous-catégories, comme « Jeunes parents », « Skateboard » ou « Cerf, élan et caribou ». En revanche, la catégorie « Poésie » ne compte que vingt sous-catégories. Cela signifie que Bambi ou le célèbre élan Bullwinkle ont droit à un rayon entier, tandis que Leopardi, Schiller et Verlaine doivent tous se tasser dans la sous-catégorie. « Poésie/Europe continentale ». Autrement dit, Google s’est emparé de quelques-unes des plus grandes collections universitaires du monde et en a fait une librairie de centre commercial.
Ces quelques exemples sont loin d’épuiser la liste des erreurs commises par Google sur les métadonnées. Outre les surprenants changements de titres dont sont parfois victimes certaines œuvres (« Moby Dick, le mur blanc » au lieu de « la baleine blanche », en raison d’une confusion entre wall et whale), titres et textes sont bien souvent mal appariés. Quand on clique sur le lien correspondant à la Théorie de l’univers, ouvrage de cosmologie publié en 1818 par le mathématicien et général napoléonien Jacques Alexandre François Allix, on tombe sur Les Voix du cœur, roman de Barbara Taylor Bradford paru en 1983 ; de même, un numéro mal daté de Household Words, la revue publiée par Dickens, conduit à une Histoire de l’Académie royale des sciences de 1742. De nombreuses entrées mélangent allègrement les noms des auteurs, des éditeurs et des préfaciers, de sorte que la rubrique « À propos de ce livre » d’un roman français attribue magistralement Madame Bovary à Henry James !
Plus mystérieusement, un ouvrage intitulé The Mosaic Navigator. The Essential Guide to the Internet Interface [« Le navigateur Mosaic. Guide de l’interface Internet »] est daté de 1939 et attribué à Sigmund Freud et Katherine Jones. Le seul rapport que j’aie pu trouver tient au fait que Jones était la traductrice de la version anglaise de Moïse et le monothéisme de Freud, d’où le lien probable avec l’autre sens du mot, l’adjectif mosaïque, bien que le cheminement d’un tel processus me laisse pantois.
Pour l’heure, les chercheurs doivent donc renoncer à leur rêve de suivre les progrès du libéralisme au XIXe siècle ou de mesurer précisément le glissement de l’ensemble nominal « United States » du pluriel au singulier au cours du premier siècle de la république américaine : les métadonnées ne sont tout simplement pas à la hauteur. Il est vrai que la firme a conscience de la plupart de ces problèmes et s’est engagée à les résoudre. De fait, j’ai décrit certaines de ces erreurs lors d’une conférence, et Google s’est précipité pour en corriger un bon nombre.(5) Reste à savoir si Google envisage de procéder en la matière comme il le fait avec les erreurs de numérisation dont sont truffés les documents, les corrigeant au fur et à mesure qu’elles lui sont signalées, quand d’aventure elles le sont. Mais, en l’occurrence, cela ne marche pas : il y a tout bonnement trop d’erreurs. Même s’il ne fait guère de doute que le système de classification automatique de Google s’améliorera, l’extraction mécanique des métadonnées n’est pas adaptée à la recherche universitaire. L’entreprise a d’ailleurs décidé d’acquérir les données bibliographiques des livres numérisés en même temps que les ouvrages eux-mêmes ; mais, pour le moment, Google n’a pas encore le droit de diffuser ou d’utiliser ces données. Ce qui explique sans doute ses rudimentaires tentatives pour récupérer les dates de publication directement sur les textes numérisés. Ces faiblesses pourraient être compensées par des organismes comme l’Internet Archive ou le HathiTrust, un consortium de bibliothèques partenaires du projet qui se propose de mettre en ligne plusieurs millions de livres du domaine public numérisés par Google provenant de leurs fonds, avec toutes leurs données bibliographiques. Mais, pour le moment, cela ne concerne que les ouvrages du domaine public, soit environ 15 % des livres numérisés ; seul Google pourra diffuser les « œuvres orphelines » – encore sous copyrights, mais dont on ne connaît pas les ayants droit – parues après 1923.

Google apprend vite, mais... 

Quoi qu’il en soit, rien de tout cela n’exonère Google de sa responsabilité : faire de sa bibliothèque numérique une ressource fiable pour les chercheurs. Cela signifie, au strict minimum, négocier le droit de diffuser les catalogues de la Bibliothèque du Congrès et de l’Online Computer Library Center (OCLC (6)) pour les intégrer au moteur de recherche et permettre aux utilisateurs d’obtenir des résultats fiables quand ils font une recherche à partir de combinaisons de dates, mots-clés, ou rubriques, etc. Mais « fiable » signifie bien davantage que cela ; cela passe aussi par l’amélioration de la qualité de la numérisation et des algorithmes, encore très grossiers, de calcul des résultats, sans oublier l’optimisation de leur classement, lequel est actuellement absurde et oriente vers des éditions médiocres ou mal faites d’œuvres classiques. Quoi qu’il en soit, la garantie de qualité est constitutive du projet lui-même. Google considère, à juste titre, que son programme de numérisation sert l’intérêt général. Mais, comme le souligne Pamela Samuelson, l’une des directrices du Centre de droit et technologie de l’université de Californie à Berkeley, tout grand projet d’intérêt général suppose une grande confiance du public.
Cela étant, je suis plus optimiste que certains de mes collègues. Non que je compte sur un quelconque désintéressement ou sur le sens de l’intérêt général pour inciter Google à investir le temps et les ressources nécessaires pour remédier au problème. Mais j’ai l’impression que les erreurs initiales sont dues, pour la plupart, aux tâtonnements maladroits de la firme, confrontée à un domaine beaucoup plus complexe qu’elle ne l’imaginait. De toute évidence, l’entreprise a conçu son système sans penser à la nécessité de métadonnées fiables. Et la grande réussite du moteur de recherche Google fut de démontrer comme il pouvait être facile de dénicher une information utile sans se préoccuper des métadonnées ni recourir aux systèmes de classifications complexes du type Yahoo. Mais les livres ne sont pas simplement des vecteurs d’information, et la gestion d’un grand fonds exige des savoir-faire, des méthodes et des données très différents de ceux qui ont permis à l’entreprise de devenir le leader de la recherche en ligne.
Le défi est d’autant plus rude que Google veut achever rapidement son projet pour mettre d’éventuels concurrents devant le fait accompli. Mais, que les besoins des chercheurs soient ou non une priorité, l’entreprise n’a aucune envie que Book Search devienne un sujet de blagues permanent chez les universitaires. Et elle pourrait réagir à la pression des bibliothèques partenaires – qui ne s’étaient guère préoccupées des questions de qualité au moment de signer leurs accords avec Google –, surtout si les chercheurs dont elles représentent les intérêts leur suggèrent, voire les somment, de faire du bruit sur la qualité lamentable des métadonnées. Si l’histoire récente nous enseigne quelque chose, c’est que Google apprend très vite.
Cet article est paru dans The Chronicle of Higher Education le 31 août 2009. Il a été traduit par Jean-François Cornu.
LE LIVRE
LE LIVRE

Madame Bovary

SUR LE MÊME THÈME

Culture La forêt et la civilisation
Culture Si les bagues m’étaient contées
Culture La vogue des jeux de survie

Dans le magazine
BOOKS n°99

DOSSIER

La forêt et nous

Chemin de traverse

20 faits & idées à glaner dans ce numéro

Edito

Une certitude, des questions

Bestsellers

Le printemps malgré tout

Voir le sommaire

Booksletter,
c'est gratuit !

Retrouvez gratuitement la Booksletter
chaque samedi matin dans votre boîte email.