Au centre du débat : le big data
par Sue M. Halpern

Au centre du débat : le big data

Nous n’avons pas idée de l’extraordinaire puissance du système de collecte et d’analyse des données personnelles et des outils de surveillance et de manipulation qu’il fournit. Même quand ces informations sont fausses…

Publié dans le magazine Books, novembre / décembre 2017. Par Sue M. Halpern

© Kim Kulish / Rea

Pour le patron de Facebook, Mark Zuckerberg, la vie privée n’est plus une norme sociale. Mais à quel moment cesse-t-elle aussi d’être une norme politique ?

Selon un article récent du Washington Post, Facebook collecte 98 sortes de données sur chacun de ses plus de 2 milliards d’utilisateurs. Parmi ces données figurent l’appar­tenance ethnique, le revenu, la ­valeur du patrimoine, la valeur de la rési­dence principale, si vous êtes maman, si vous avez des enfants d’âge scolaire, si vous êtes marié, le nombre d’emprunts que vous avez contractés, si vous faites le ramadan, la date à laquelle vous avez acheté votre voiture, et ainsi de suite. Comment et où Facebook se procure-t-il tous ces renseignements sur notre vie privée et notre identité ? Tout d’abord à partir des informations que nous avons nous-mêmes fournies, comme notre ­situation de famille, notre âge et l’université que nous avons fréquentée. Ils viennent aussi des photos de vacances, d’enfants et de cérémonies de remise de diplôme publiées sur le réseau social. Des photos que nous n’avons pas forcément publiées nous-mêmes. L’outil de reconnaissance faciale de Facebook peut nous repérer dans une foule. Facebook suit aussi notre activité sur Internet, même si nous avons coché la case « Ne pas me pister ». Facebook sait chaque fois qu’un usager visite un site qui dispose du bouton « J’aime », ce qui est le cas de la plupart des sites. L’entreprise se fournit aussi auprès des 10 millions de banques de données ­publiques et des 5 000 courtiers en données qui existent dans le monde et collectent des informations à partir des cartes de fidélité des magasins, des contrats de garantie, des dossiers pharmaceutiques ou des bulletins de salaire. Les municipalités aussi vendent des données : listes électorales, fichiers des cartes grises, avis de décès, déclarations de saisie, immatriculations d’entreprises, etc. En ­théorie, Facebook collecte toutes ces données pour mieux cibler les publicités qui nous sont destinées, mais en réalité il les vend aux annonceurs pour la simple et bonne raison que cela lui rapporte de l’argent. J’ai fouillé dans les entrailles de Facebook afin de voir quelles informations l’entreprise exploite pour personnaliser les publicités qu’elle me montre. Les préférences et l’algorithme ne sont pas les mêmes que ceux qu’elle utilise pour déter­miner les publications s’affichant sur mon « fil d’actualité », un assortiment variable de photos et de publications de mes amis Facebook et de sites que j’ai « aimés ». Ces préférences publicitaires sont le sésame de la rentabilité de Facebook : l’entreprise a affiché un résultat net de 10,2 milliards de dollars en 2016, soit une hausse de 177 % par rapport à 2015.   Le moteur prédictif a conclu que j'étais probablement un homme homosexuel et célibataire Et voilà ce que j’ai découvert sur moi-même selon Facebook : je m’intéresse aux catégories « agriculture, argent, Parti républicain, bonheur, bonbons ­géli­fiés, personnel navigant », d’après ce que Facebook dit que je fais sur Facebook. D’après les pubs que Facebook pense que j’ai regardé quelque part en naviguant sur Internet, je m’intéresse aussi à l’imagerie par résonance magnétique, au documentaire La Grotte des rêves perdus [sur la grotte Chauvet] et aux thrillers. Facebook pense aussi que j’ai aimé des pages Facebook consacrées à Tyrannosaurus rex, au groupe japonais Puffy AmiYumi, à la pâte à biscuit et à un ­catcheur nommé Edge. Or je n’ai « aimé » aucune de ces pages, comme le montrerait un rapide passage en revue des pages que j’ai likées. Avant de faire cette recherche, je n’avais ­jamais entendu parler d’Edge ni de Puffy Ami­Yumi, et, comme je suis ­atteinte de la maladie cœliaque, mon état de santé ne me permet pas d’aimer la pâte à biscuit. En revanche, j’ai « aimé » la page de la boxeuse ­Claressa Shields, qui est surnommée T-Rex. C’est le seul point d’accord avec ce que Facebook prétend que J’aime. C’est plutôt étrange, car s’il y a bien une chose que Facebook sait de moi de façon certaine, ce sont les pages Facebook que j’ai effectivement « aimées ». Mais peut-être ai-je plus de valeur pour Facebook si je suis présentée comme quelqu’un qui aime Puffy AmiYumi, avec ses dizaines de milliers de fans, plutôt qu’un groupe local nommé ­Dugway, qui en a moins de 1 000. Je ne le saurai jamais, car les algorithmes de Facebook, comme ceux de Google, sont un secret soigneusement gardé. Si Facebook se fait des idées fausses sur moi et gagne de l’argent avec, ce n’est pas la seule entreprise à utiliser des données brutes pour arriver à des conclusions étranges et totalement erro­nées. Des chercheurs du Centre de psychométrie de l’université de Cambridge ont mis au point ce qu’ils appellent un « moteur prédictif », alimenté par des algorithmes exploitant un jeu partiel de « J’aime » d’un utilisateur de Facebook et capable de « prévoir une série de variables parmi lesquelles le bien-être, l’intelligence et l’orientation politique, et de générer un profil de personnalité fondé sur cinq traits, les big five ». Ces cinq traits sont l’ouverture, la conscience, l’extraversion, l’agréabilité et le névrosisme. Acronyme : Ocean. Les big five servent couramment à évaluer les candidats à un emploi. « Nous nous projetons toujours au-delà des simples clics ou “J’aime” d’un individu pour prendre en compte les caractéristiques qui dictent réellement son comportement », affirment ces chercheurs. Ils vendent leurs services à des entreprises, avec la promesse de leur fournir « une analyse psychologique instantanée de vos usagers fondée sur leur comportement en ligne, pour vous permettre d’offrir un retour et des recommandations en temps réel et valoriser pleinement votre marque ». Et voilà ce que leur moteur prédictif a conclu sur moi : je suis probablement un homme, bien que le fait d’« aimer » la page de The New York Review of Books me donne une touche de « féminité » ; je suis plutôt de droite que de gauche – et ce malgré l’affection pour Bernie Sanders que j’affiche sur Facebook ; je suis du genre contemplatif plutôt qu’impliquée dans la vie publique – et ce alors que j’ai « aimé » nombre de groupes poli­tiques et de militants ; et je suis plus relax que 62 % de la population (j’en doute).   Et voici encore ce que j’ai trouvé sur moi. Non seulement je suis un homme, mais « six hommes sur dix qui partagent les mêmes “J’aime” sont gays », ce qui me donne une « probabilité moyenne » d’être non seulement un homme, mais un homme homosexuel. Les « J’aime » qui me font sembler « moins gay » sont le magazine de défense des consommateurs Consumer Reports, le blog d’actualité technologique Gizmodo et un site appelé Lifehacker. Les « J’aime » qui me font apparaître « plus gay » sont The New York Times et le groupe écologiste 350.org. En même temps, les « J’aime » qui me font « appa­raître peu intéressée par la politique » sont ces mêmes New York Times et 350.org. Il y a mieux. Selon l’algorithme du Centre de psychométrie, « vos “J’aime” indiquent que vous êtes célibataire ». Pourquoi ? Parce que j’ai aimé la page de 350.org, une association fondée par l’homme dont je partage la vie depuis trente ans ! Cela a beau être amusant, cela montre aussi à quel point il est facile de se méprendre sur les données et de mal les interpréter. Nous vivons à une époque où des très puissants calculateurs peuvent analyser et trier d’énormes jeux de données disparates. Cela peut aider à repérer des tendances qu’on n’aurait pas pu voir auparavant, ce qui s’est révélé utile dans la recherche pharmaceutique par exemple et, apparemment, pour savoir où des engins explosifs improvisés avaient le plus de chances d’être placés en Afghanistan. Mais cela peut aussi nous amener à croire que l’analyse des données va nous livrer une vérité dénuée de biais et de scories. En réalité, la « datafication » de toute chose a un effet réducteur. Pour commencer, elle laisse de côté tout ce qui ne peut être quantifié. Comme…
Pour lire la suite de cet article, JE M'ABONNE, et j'accède à l'intégralité des archives de Books.
Déjà abonné(e) ? Je me connecte.
Imprimer cet article
0
Commentaire

écrire un commentaire