Soutenez l’esprit critique ! Participez à la campagne pour préserver l’indépendance de Books !

Au centre du débat : le big data

Nous n’avons pas idée de l’extraordinaire puissance du système de collecte et d’analyse des données personnelles et des outils de surveillance et de manipulation qu’il fournit. Même quand ces informations sont fausses…


© Kim Kulish / Rea

Pour le patron de Facebook, Mark Zuckerberg, la vie privée n’est plus une norme sociale. Mais à quel moment cesse-t-elle aussi d’être une norme politique ?

Selon un article récent du Washington Post, Facebook collecte 98 sortes de données sur chacun de ses plus de 2 milliards d’utilisateurs. Parmi ces données figurent l’appar­tenance ethnique, le revenu, la ­valeur du patrimoine, la valeur de la rési­dence principale, si vous êtes maman, si vous avez des enfants d’âge scolaire, si vous êtes marié, le nombre d’emprunts que vous avez contractés, si vous faites le ramadan, la date à laquelle vous avez acheté votre voiture, et ainsi de suite. Comment et où Facebook se procure-t-il tous ces renseignements sur notre vie privée et notre identité ? Tout d’abord à partir des informations que nous avons nous-mêmes fournies, comme notre ­situation de famille, notre âge et l’université que nous avons fréquentée. Ils viennent aussi des photos de vacances, d’enfants et de cérémonies de remise de diplôme publiées sur le réseau social. Des photos que nous n’avons pas forcément publiées nous-mêmes. L’outil de reconnaissance faciale de Facebook peut nous repérer dans une foule. Facebook suit aussi notre activité sur Internet, même si nous avons coché la case « Ne pas me pister ». Facebook sait chaque fois qu’un usager visite un site qui dispose du bouton « J’aime », ce qui est le cas de la plupart des sites. L’entreprise se fournit aussi auprès des 10 millions de banques de données ­publiques et des 5 000 courtiers en données qui existent dans le monde et collectent des informations à partir des cartes de fidélité des magasins, des contrats de garantie, des dossiers pharmaceutiques ou des bulletins de salaire. Les municipalités aussi vendent des données : listes électorales, fichiers des cartes grises, avis de décès, déclarations de saisie, immatriculations d’entreprises, etc. En ­théorie, Facebook collecte toutes ces données pour mieux cibler les publicités qui nous sont destinées, mais en réalité il les vend aux annonceurs pour la simple et bonne raison que cela lui rapporte de l’argent. J’ai fouillé dans les entrailles de Facebook afin de voir quelles informations l’entreprise exploite pour personnaliser les publicités qu’elle me montre. Les préférences et l’algorithme ne sont pas les mêmes que ceux qu’elle utilise pour déter­miner les publications s’affichant sur mon « fil d’actualité », un assortiment variable de photos et de publications de mes amis Facebook et de sites que j’ai « aimés ». Ces préférences publicitaires sont le sésame de la rentabilité de Facebook : l’entreprise a affiché un résultat net de 10,2 milliards de dollars en 2016, soit une hausse de 177 % par rapport à 2015.  

Le moteur prédictif a conclu que j'étais probablement un homme homosexuel et célibataire

Et voilà ce que j’ai découvert sur moi-même selon Facebook : je m’intéresse aux catégories « agriculture, argent, Parti républicain, bonheur, bonbons ­géli­fiés, personnel navigant », d’après ce que Facebook dit que je fais sur Facebook. D’après les pubs que Facebook pense que j’ai regardé quelque part en naviguant sur Internet, je m’intéresse aussi à l’imagerie par résonance magnétique, au documentaire La Grotte des rêves perdus [sur la grotte Chauvet] et aux thrillers. Facebook pense aussi que j’ai aimé des pages Facebook consacrées à Tyrannosaurus rex, au groupe japonais Puffy AmiYumi, à la pâte à biscuit et à un ­catcheur nommé Edge. Or je n’ai « aimé » aucune de ces pages, comme le montrerait un rapide passage en revue des pages que j’ai likées. Avant de faire cette recherche, je n’avais ­jamais entendu parler d’Edge ni de Puffy Ami­Yumi, et, comme je suis ­atteinte de la maladie cœliaque, mon état de santé ne me permet pas d’aimer la pâte à biscuit. En revanche, j’ai « aimé » la page de la boxeuse ­Claressa Shields, qui est surnommée T-Rex. C’est le seul point d’accord avec ce que Facebook prétend que J’aime. C’est plutôt étrange, car s’il y a bien une chose que Facebook sait de moi de façon certaine, ce sont les pages Facebook que j’ai effectivement « aimées ». Mais peut-être ai-je plus de valeur pour Facebook si je suis présentée comme quelqu’un qui aime Puffy AmiYumi, avec ses dizaines de milliers de fans, plutôt qu’un groupe local nommé ­Dugway, qui en a moins de 1 000. Je ne le saurai jamais, car les algorithmes de Facebook, comme ceux de Google, sont un secret soigneusement gardé. Si Facebook se fait des idées fausses sur moi et gagne de l’argent avec, ce n’est pas la seule entreprise à utiliser des données brutes pour arriver à des conclusions étranges et totalement erro­nées. Des chercheurs du Centre de psychométrie de l’université de Cambridge ont mis au point ce qu’ils appellent un « moteur prédictif », alimenté par des algorithmes exploitant un jeu partiel de « J’aime » d’un utilisateur de Facebook et capable de « prévoir une série de variables parmi lesquelles le bien-être, l’intelligence et l’orientation politique, et de générer un profil de personnalité fondé sur cinq traits, les big five ». Ces cinq traits sont l’ouverture, la conscience, l’extraversion, l’agréabilité et le névrosisme. Acronyme : Ocean. Les big five servent couramment à évaluer les candidats à un emploi. « Nous nous projetons toujours au-delà des simples clics ou “J’aime” d’un individu pour prendre en compte les caractéristiques qui dictent réellement son comportement », affirment ces chercheurs. Ils vendent leurs services à des entreprises, avec la promesse de leur fournir « une analyse psychologique instantanée de vos usagers fondée sur leur comportement en ligne, pour vous permettre d’offrir un retour et des recommandations en temps réel et valoriser pleinement votre marque ». Et voilà ce que leur moteur prédictif a conclu sur moi : je suis probablement un homme, bien que le fait d’« aimer » la page de The New York Review of Books me donne une touche de « féminité » ; je suis plutôt de droite que de gauche – et ce malgré l’affection pour Bernie Sanders que j’affiche sur Facebook ; je suis du genre contemplatif plutôt qu’impliquée dans la vie publique – et ce alors que j’ai « aimé » nombre de groupes poli­tiques et de militants ; et je suis plus relax que 62 % de la population (j’en doute).   Et voici encore ce que j’ai trouvé sur moi. Non seulement je suis un homme, mais « six hommes sur dix qui partagent les mêmes “J’aime” sont gays », ce qui me donne une « probabilité moyenne » d’être non seulement un homme, mais un homme homosexuel. Les « J’aime » qui me font sembler « moins gay » sont le magazine de défense des consommateurs Consumer Reports, le blog d’actualité technologique Gizmodo et un site appelé Lifehacker. Les « J’aime » qui me font apparaître « plus gay » sont The New York Times et le groupe écologiste 350.org. En même temps, les « J’aime » qui me font « appa­raître peu intéressée par la politique » sont ces mêmes New York Times et 350.org. Il y a mieux. Selon l’algorithme du Centre de psychométrie, « vos “J’aime” indiquent que vous êtes célibataire ». Pourquoi ? Parce que j’ai aimé la page de 350.org, une association fondée par l’homme dont je partage la vie depuis trente ans ! Cela a beau être amusant, cela montre aussi à quel point il est facile de se méprendre sur les données et de mal les interpréter.
Nous vivons à une époque où des très puissants calculateurs peuvent analyser et trier d’énormes jeux de données disparates. Cela peut aider à repérer des tendances qu’on n’aurait pas pu voir auparavant, ce qui s’est révélé utile dans la recherche pharmaceutique par exemple et, apparemment, pour savoir où des engins explosifs improvisés avaient le plus de chances d’être placés en Afghanistan. Mais cela peut aussi nous amener à croire que l’analyse des données va nous livrer une vérité dénuée de biais et de scories. En réalité, la « datafication » de toute chose a un effet réducteur. Pour commencer, elle laisse de côté tout ce qui ne peut être quantifié. Comme le souligne Cathy O’Neil dans son livre pénétrant et dérangeant, la datafication repose souvent sur des indicateurs indirects quantifiables qui ont peu ou pas de rapport avec les réalités qu’ils sont censés appréhender : la cote de solvabilité (1) pour la probabilité d’être un bon salarié, par exemple, ou les tests de personnalité fondés sur les big five qu’utilise le Centre de psychométrie de Cambridge alors même, comme le rapporte O’Neil, que « la recherche scientifique montre que les tests de personnalité sont de piètres prédicteurs de la performance au travail ». On a tendance à penser que les données sont neutres, qu’elles ne reflètent pas de biais intrinsèques. La plupart des gens pensent par exemple que Facebook n’intervient pas dans ce qui s’affiche sur leur « fil d’actualité », alors que c’est exactement ce que fait son algorithme propriétaire. Une personne ou un groupe de personnes décident quel type d’informations doit être inclus dans l’algorithme, et comment le pondérer, de même qu’une personne ou un groupe de personnes décident de ce qu’il faut inclure dans un ensemble de données, ou quel ensemble de données doit être intégré à une analyse. Cette personne ou ce groupe de personnes abordent leur tâche avec tous les biais et les a priori culturels qui font de nous ce que nous sommes. Quelqu’un au Centre de psychométrie de Cambridge a décidé que les lecteurs de The New York Review of Books sont des femmes et que ceux des blogs de technologie sont des hommes. Ce n’est pas de la science, c’est de la présomption. Et c’est gravé dans l’algorithme. Il nous faut admettre que la faillibi­lité de l’être humain est inscrite dans les algorithmes que les humains écrivent. Cela paraît évident quand on regarde le résultat des analyses du Centre de psychométrie de Cambridge, mais ça l’est moins quand il s’agit d’algorithmes qui « prédisent » qui va commettre un crime dans l’avenir, par exemple – algo­rithmes qui sont désormais utilisés par certains tribunaux pour prendre les décisions de condamnation ou de libération conditionnelle. Ou des algorithmes qui jugent un candidat à l’embauche un peu trop curieux et donc moins susceptible d’être un salarié loyal. Ou des algorithmes qui évaluent la cote de solvabilité, laquelle, on l’a vu, sert à bien plus qu’à déterminer la solvabi­lité. Facebook développe d’ailleurs son propre algorithme de notation, fondé sur le profil des amis que nous avons sur le réseau. Cela peut favoriser des personnes pauvres dont les « amis » travaillent dans la finance et pénaliser ceux dont les amis sont désargentés. À l’automne 2016, un groupe de programmeurs a organisé un concours de beauté mondial en ligne, jugé par un système d’intelligence artificielle. L’idée était que l’ordinateur serait ­capable d’analyser les photos envoyées par des milliers de participantes du monde entier et d’identifier selon des critères objectifs les femmes représentant la beauté idéale. Est-ce surprenant que, à une personne près, le robot n’ait choisi que des reines de beauté blanches ? Les chercheurs avaient « entraîné » la machine à partir d’une base d’images principalement constituée de photos de femmes à la peau claire. « Bien que l’équipe n’ait pas construit l’algorithme pour qu’il traite la peau blanche comme un signe de beauté, écrit Sam Levin dans The Guardian, les paramètres ont amené les robots-juges à tirer cette conclusion. »   Quand Latanya Sweeney, professeure à l’université Harvard, a tapé son nom dans Google, elle a vu apparaître une publicité formulée en ces termes : « Latanya Sweeney, casier judiciaire ? 1) Entrer le nom et l’État ; 2) Accéder au casier judiciaire. Vérification instantanée sur www.instantcheckmate.com. » Elle a payé ce que l’annonceur demandait et constaté… que son casier était vierge. Or Latanya est plutôt un prénom de femme noire. Elle a testé l’algorithme en entrant sur deux sites différents (dont celui du quotidien The Chicago Tribune) 2 184 prénoms évoquant différentes couleurs de peau. Cette pub apparaissait à une fréquence 25 % plus grande pour les prénoms à connotation noire. Il y a aussi l’exemple de la frater­nité afro-américaine Omega Psi Phi, qui avait créé un site Internet pour célébrer son centième anniversaire. Comme le relatent Ariel Ezrachi et Maurice Stucke dans un livre : « Parmi les pubs générées par algorithme sur le site figuraient des annonces pour des cartes de crédit délivrées par des établissements financiers douteux et d’autres ­invitant tel ou tel membre de la fraternité à vérifier son casier judiciaire » (2). Des pubs surgissent sur notre navigateur, notre page Facebook ou notre compte Gmail, et nous avons tendance à penser qu’elles sont là parce qu’une ­entreprise cherche à nous vendre un produit dont elle pense que nous pourrions avoir envie au vu de notre historique de navigation, de ce que nous avons pu écrire dans un courriel ou rechercher sur Google. Nous ne pensons probablement pas qu’elles sont là parce que nous habitons dans tel quartier, que nous fréquentons tel type de personnes ou que nous avons été repérés par des voies obscures grâce à une représentation pointilliste de notre vie. Et nous n’imaginons certainement pas que nous voyons ces pubs parce qu’un algorithme a établi que nous sommes un loser, une proie facile ou que nous appartenons à tel ou tel groupe ethnique.  

Facebook dispose de 98 types de données sur nous, mais le courtier Acxoim en possède 1500

Comme le souligne O’Neil, préférences, habitudes, code postal et publications sont aussi exploités pour générer des annonces prédatrices, « des publicités qui repèrent des personnes vulnérables et leur vendent des promesses fausses ou hors de prix ». Des personnes peu solvables se voient proposer des prêts sur salaire ; des personnes ayant un emploi sans avenir se voient proposer des formations onéreuses dans des universités privées. L’idée, écrit O’Neil, est de repérer les gens les plus vulnérables et puis d’exploiter leurs données privées à leur détriment. L’objectif est d’identifier ce qui les tourmente le plus, ce qu’on appelle « le point de douleur ». Nous savons depuis longtemps que des sites marchands comme Amazon et des agences de voyages en ligne comme Orbitz ou Expedia modulent leurs prix en fonction de ce qu’ils pensent savoir de nous – notre lieu de résidence, nos revenus, nos achats précédents. Et souvent, paradoxalement, les riches paient moins. Ou bien ils paient plus, comme les ­lycéens d’origine asiatique qui s’inscrivent aux cours de préparation aux examens d’entrée à l’université de l’entreprise Princeton Review ou les clients d’Orbitz qui se connectent à partir d’un Mac. Cette tarification dynamique devient de plus en plus complexe et opaque. Une enseigne britannique, par exemple, teste des étiquettes de prix électroniques qui changent selon le client, client qu’elle identifie grâce à son téléphone portable et dont elle connaît les habitudes de consommation. Facebook dispose peut-être de 98 types de données sur chaque utilisateur, mais le courtier Acxiom en possède 1 500 et elles sont toutes à vendre pour être agrégées et intégrées au petit bonheur la chance dans des formules qui nous échappent [lire « Caveat emptor»]. Nous cédons nos données. Nous les cédons par petits bouts, sans penser que des courtiers vont les collecter et les vendre, encore moins qu’elles pourront être utilisées contre nous. Il existe aujourd’hui des banques de données d’ADN privées et non réglementées, constituées entre autres à partir d’échantillons d’ADN que les gens fournissent à des sites généalogiques pour connaître leurs ancêtres. Ces échantillons disponibles en ligne peuvent être comparés à de l’ADN prélevé sur les scènes de crime sans qu’une décision de justice l’ait autorisé. La police constitue aussi ses propres bases de données d’ADN en faisant des prélèvements buccaux lors de contrôles de routine. Selon l’Electronic Frontier Foundation (EFF), une ONG de protection des libertés sur Internet, cela ­accroît le risque de voir des personnes mises en cause pour des crimes ou des délits qu’elles n’ont pas commis. Et voyez les données de coachs électroniques comme Fitbit. Comme on peut le lire dans un article du site The Intercept, « en 2013, lors d’un débat d’experts sur la santé et le fitness connectés, Scott Peppet, professeur de droit à l’université du Colorado, assurait : “Je peux brosser un portrait de vous incroyablement riche et détaillé à partir de vos données sur Fitbit.” Et il ajoutait : “Ces données sont de si bonne qualité que je pourrais fixer le prix de primes d’assurance ou évaluer avec précision votre cote de solvabilité.” » Pensez aussi que, si vous faites l’un des tests de personnalité qui apparaissent régulièrement sur Facebook (« Ce que votre écriture manuscrite dit de vous », par exemple), il y a de bonnes chances que les résultats soient exploités par une société nommée Cambridge Analytica pour avoir accès non seulement à votre profil Ocean (les big five), mais aussi à votre profil Facebook, avec votre nom. Selon The New York Times, Cambridge Analytica a conseillé Donald Trump pendant sa campagne [lire « Le triomphe de la science du comportement »]. Et puis, chaque fois que vous commandez un Uber ou utilisez Google Maps, pour ne citer que deux applications mobiles, vous révélez votre localisation et laissez une trace à exploiter par d’autres – la police, bien sûr, mais aussi peut-être des hackers et d’autres délinquants, et naturellement des entreprises commerciales. Récemment, alors que je me trouvais dans un restaurant à New York, j’ai reçu un message me félicitant d’avoir choisi cet endroit et m’indiquant les plats du jour. Je n’avais pourtant pas utilisé Google Maps pour m’y rendre, mais le simple fait d’avoir activé la ­localisation sur mon téléphone me transformait en cible facile. Tout cela fait un peu froid dans le dos, mais, au fond, est-ce bien important ? C’est la question que nous devons nous poser. Demandez aux personnes qui utilisent Facebook ou les produits Google, se déplacent en Uber ou publient des selfies sur Twitter si cela les dérange que leurs données personnelles soient vendues comme la marchandise qu’elles sont : la plupart vous diront que c’est un bien petit prix à payer, vu l’avantage qu’il y a à se faire guider gratuitement le long d’un itinéraire, à communiquer par e-mail ou à rester en contact avec de vieux amis. S’il est vrai, comme l’a dit le patron de Facebook, Mark Zuckerberg, que la vie privée n’est plus une norme sociale, à quel moment cesse-t-elle aussi d’être une norme politique ? À partir de quel stade l’individu ou les libertés indi­viduelles cessent-ils de primer sur la raison d’État ? Car il serait naïf de croire que l’État ne s’intéresse pas à nos habitudes de consommation, à l’endroit où nous étions hier à 16 heures ou à l’identité de nos amis. Les agences de rensei­gnement et la police achètent elles aussi des données aux courtiers. Elles le font en contournant les lois qui encadrent la collecte des données personnelles. Elles le font parce que c’est bon marché. Et parce que les bases de données commerciales sont diversifiées, puissantes et robustes. De plus, l’énorme masse de données que nous laissons dans notre sillage quand nous utilisons Gmail, publions des photos sur Internet, stockons des documents sur Google Drive et faisons appel à Uber a valeur de témoignage pour la police et la justice. Et parfois ce sont les entreprises de l’Internet elles-mêmes qui transmettent ces informations privées sans broncher, comme en témoigne le cas de Yahoo qui, comme on l’a appris en 2016, surveillait tout son flux d’e-mails entrants pour le compte des autorités américaines. Il y a aussi cette application nommée Geofeedia qui permettait à la police de trianguler les données personnelles collectées sur une dizaine de réseaux sociaux afin d’espionner des militants et d’empêcher des manifestations (3).   Il y a aussi Palantir, une très discrète entreprise d’analyse de données de la Silicon Valley, financée par la CIA et utilisée par la NSA, la CIA, le FBI, de nombreuses forces de police, American Express et des centaines d’autres entreprises, services de renseignement et institutions financières. Ses algorithmes permettent l’analyse rapide d’énormes volumes de données issues d’un large éventail de sources comme les caméras de surveillance routière, les achats en ligne, les publications sur les réseaux sociaux, les amitiés et les échanges de courriels – activités quotidiennes de citoyens innocents – pour permettre à des agents de police, par exemple, d’évaluer si un conducteur interpellé pour un phare cassé est peut-être un délinquant. Ou pourrait l’être un jour. Il serait naïf de croire que la surveillance commerciale et la surveillance d’État sont séparées par une cloison étanche. Cette cloison n’existe pas. Beaucoup d’entre nous s’inquiètent de l’excès de pouvoir numérique de nos États, surtout depuis les révélations d’Edward Snowden. Mais la dynamique consumériste qui nous pousse à divulguer des informations personnelles sans discernement menace autant nos droits individuels que notre bien-être collectif. Elle le menace peut-être davantage, si l’on songe que nous troquons bêtement 98 degrés de liberté contre un ensemble de choses dont nous avons été amenés, comme par hypnose, à croire qu’elles ne nous coûtent rien.   — Cet article est paru dans The New York Review of Books le 22 décembre 2016. Il a été traduit par Olivier Postel-Vinay.
LE LIVRE
LE LIVRE

Weapons of Math Destruction: How Big Data Increases Inequality and Threatens Democracy de Cathy O’Neil, Crown, 2016

SUR LE MÊME THÈME

Dossier Alain Prochiantz : « La radicale originalité de Sapiens »
Dossier Frans de Waal : « Ne confondons pas émotions et sentiments »
Dossier Ce que ressentent les animaux

Aussi dans
ce numéro de Books

Booksletter,
c'est gratuit !

Retrouvez gratuitement la Booksletter
chaque samedi matin dans votre boîte email.