Le site est en chantier pour vous permettre de retrouver toutes vos fonctionnalités.

L’abonnement en ligne n’est pas encore possible actuellement.

Dossier
Temps de lecture 33 min

Des scientifiques intègres comme des coureurs du Tour de France

La fraude scientifique est beaucoup plus répandue qu’on le pense, mais le principal coupable est l’évolution du système de la recherche. L’hypercompétition est aggravée par des modes d’évaluation qui privilégient la quantité de publications au détriment de la qualité.


© Christopher Capozziello/The New York Times-Redux-Rea

Sur 53 études de référence menées en oncologie, l’entreprise de biotechnologie Amgen (ici un de ses sites de production aux États-Unis) n’est parvenue à en reproduire que 6.

Nous estimons qu’au cours des cinquante dernières années les incitations et le système de récompense de la science ont changé, créant une hypercompétition entre les chercheurs universitaires. Aux États-Unis, les chargés de cours et les maîtres de conférences représentent aujourd’hui 76 % des enseignants universitaires, ce qui permet aux universités de fonctionner davantage comme des entreprises, avec pour effet de rendre les postes de titulaire beaucoup plus rares et convoités. Le recours croissant à des indicateurs de mesure de la performance tels que le nombre d’articles et de citations et le montant des crédits de recherche obtenus conduit à se désintéresser de la qualité et de l’utilité sociale des travaux de recherche. Il est à craindre aussi que ces pressions favorisent des pratiques contraires à l’éthique de la part des scientifiques qui évoluent dans cet environnement hyperconcurrentiel. Nous considérons qu’une réforme s’impose pour rétablir l’équilibre au sein de l’université et dans le contrat social entre la science et la société, afin de garantir qu’à l’avenir la science joue son rôle de bien commun.

 

encadre 3
Les critères quantitatifs influent de plus en plus sur le recrutement, la promotion et la titularisation des chercheurs, les récompenses et les financements. Ils font porter une très grande attention au nombre de publications, au nombre de citations, au nombre com­biné de citations et de publications (la mesure la plus connue étant le h-index ou indice h), le facteur d’impact des revues, le montant des crédits de recherche et le nombre de brevets déposés (1). Toutes ces mesures sont sujettes à manipulations, conformément à la loi formulée par l’économiste britannique Charles Goodhart : « Quand une mesure devient un enjeu, elle cesse d’être une bonne ­mesure ». Les critères quantitatifs peuvent être trompeurs et se révéler, en fin de compte, contre-productifs pour évaluer la recherche scientifique.

La place croissante accordée aux critères quantitatifs peut produire des injustices et des effets pervers pires que les dispositifs qu’ils ont remplacés. En particulier, si les chercheurs qui savent manipuler les indicateurs quantitatifs se voient récompensés de manière disproportionnée, cela rend obsolètes les problèmes bien connus posés naguère par les paradigmes subjectifs (les réseaux d’anciens condisciples, par exemple). Pour la plupart des scientifiques, les dégâts causés par les mesures quantitatives sont d’ores et déjà visibles. De fait, 71 % des chercheurs pensent qu’il est possible de « manipuler » ou de « fausser » les mesures pour être mieux noté par son institution (2). De fait, plusieurs articles récents ont révélé les astuces utilisées par les revues scientifiques pour manipuler leur facteur d’impact, par les chercheurs pour extraire d’un fatras de données des résultats paraissant statistiquement significatifs et publiables (ce qu’on appelle p-hacking ou utilisation sélective des données), le trucage du processus d’évaluation par les pairs et les pratiques visant à gonfler le nombre de citations. Pour illustrer ces dérives, Cyril Labbé, chercheur en informatique à l’université Joseph-Fourier de Grenoble, a même inventé un personnage fictif, Ike Antkare, qui, ayant publié 102 faux articles générés automatiquement, a réussi à obtenir un indice h de pas moins de 94 dans Google Scholar, surpassant celui d’Albert Einstein (3). Des blogs expliquant comment gonfler son indice h sans frauder à proprement parler sont à portée de main sur Google.
Depuis la Seconde Guerre mondiale, la production scientifique, mesurée au nombre de travaux cités, double tous les neuf ans. Dans quelle mesure la croissance de cette industrie du savoir est-elle en fait illusoire et une conséquence logique de la loi de Goodhart ? C’est une vraie question.
Il y a un équilibre à trouver entre qualité et quantité pour optimiser le progrès scientifique. Si d’aventure la balance se mettait à pencher exagérément du côté de la qualité, la pratique exigerait des études en triple ou quadruple aveugle (au lieu de l’usage courant du double aveugle), la réplication obligatoire des résultats par des équipes indépendantes et l’évaluation par les pairs de toutes les données et statistiques avant publication. Handicapé par une prudence excessive, un tel système produirait très peu de résultats et gaspillerait des ressources financières déjà limitées. À l’inverse, si la balance penche trop du côté de la quantité, cela produit beaucoup d’articles de mauvaise qualité fondés sur un modèle expérimental déficient, peu ou pas de réplication, un contrôle qualité insuffisant et une mauvaise évaluation par les pairs. Aucune étude ou presque n’a étudié l’effet précis des incitations perverses sur la productivité scientifique, mais la plupart des scientifiques admettent que la balance penche trop du côté de la quantité.

 

encadre 4
Faire primer la quantité sur la qualité peut également créer un « dévoiement de la sélection naturelle » (4). Un tel système est plus susceptible d’éliminer les chercheurs éthiques et altruistes, en sélectionnant ceux qui réagissent le mieux aux incitations perverses. N’importe quel scientifique peut être poussé à se livrer à des pratiques contraires à l’éthique pour percer professionnellement ou entretenir sa carrière. En 1978, le sociologue Mark Granovetter a publié une étude sur les comportements collectifs, où il montrait que le choix entre deux modes d’action dépend du nombre de ceux qui ont déjà fait le choix : il y a un effet de seuil (5). C’est ainsi que les comportements contraires à l’éthique « prennent racine dans les structures et les processus » d’une culture professionnelle. À ce stade, on devient fortement conditionné à « considérer la fraude comme acceptable », voire nécessaire.
Plusieurs scientifiques accomplis et soucieux de l’intérêt général ont ­témoigné récemment des raisons qui les poussent à quitter la carrière qu’ils ont tant aimée. The Chronicle of Higher Education a même forgé un terme pour désigner ce genre de prose : Quit Lit [littérature de démission]. Des chercheurs de haut niveau expliquent de façon parfaitement rationnelle pourquoi ils préfèrent quitter leur poste prestigieux et convoité plutôt que d’avoir à transiger sur leurs principes dans un cadre hyperconcurrentiel aux incitations perverses.

Bon nombre de sociétés savantes, d’organismes de recherche, de ­revues universitaires et de chercheurs ont formulé des propositions en vue de remédier aux excès de l’évaluation quantitative. Certains d’entre eux ont signé la Déclaration de San Francisco sur l’évaluation de la recherche (Dora), élaborée à l’initiative de la Société américaine de biologie cellulaire. La Dora affirme la nécessité « d’améliorer la ­façon dont la production scientifique est évaluée » et plaide pour une remise en cause des pratiques d’évaluation de la recherche, et notamment du « facteur d’impact des revues ». Au 1er août 2017, 871 organismes et 12 788 personnes avaient signé cette déclaration. Les direc­teurs de Nature, de Science et d’autres revues ont préconisé de réduire le rôle du facteur d’impact. La Société américaine de microbiologie a récemment adopté une position de principe et éliminé les informations liées au facteur d’impact de toutes ses revues. L’objectif est de ralentir « l’avalanche » de critères quantitatifs peu fiables dans l’évaluation de la recherche.
Comme d’autres, nous ne plaidons pas pour l’abandon des indicateurs quantitatifs, mais pour que les institutions de recherche et les organismes de financement leur accorde moins d’importance dans leur prise de décision, jusqu’à ce que nous puissions disposer d’outils de mesure objectifs plus représentatifs de la valeur de la recherche scientifique.
Aux États-Unis, les dépenses fédérales de recherche et développement (R&D) reculent depuis au moins dix ans. L’« intensité de recherche » (c’est-à-dire les dépenses de R&D en pourcentage du PIB) est passée de 2 % dans les années 1960 à 0,78 % en 2014. Dans l’état actuel des choses, l’effort financier de R&D de la Chine dépassera celui des États-Unis vers 2020.
Les universités américaines ont toujours servi à former les nouvelles générations de chercheurs, dans l’intérêt de la société. Mais comme elles se transforment en « centres de profits », donnant la priorité aux nouveaux produits et aux brevets, elles ont perdu de vue la conception de la science comme bien commun.
Nous entrons dans la pire époque pour le financement de la science ­depuis un demi-siècle. L’hypercompétition pour les demandes de subvention ­favorise les biais des évaluateurs, privilégie les projets de recherche dans des domaines jugés prioritaires par les organismes de financement, et donne un avantage automatique aux chercheurs favorisés par les méthodes d’évaluation quantitatives. En 2007 déjà, Roger Kornberg, qui venait de recevoir le Nobel de chimie pour des travaux engagés dans les années 1970, ­déclarait que dans ce nouveau contexte les NIH n’auraient sans doute pas ­financé ses recherches : « Si les recherches que vous vous proposez de faire ne sont pas certaines d’aboutir, elles ne seront pas financées. » (6) Cette évolution prélève sur la véritable recherche scientifique des ressources et un temps précieux, et oblige les scientifiques à passer un temps infini à courir après les subventions et à remplir toujours plus de paperasse.
Nous assistons à un dysfonctionnement systémique qui met en danger l’intégrité de la science. Les faits montrent que les publications scientifiques d’aujourd’hui pâtissent trop fréquemment d’un manque de réplicabilité, reposent sur des jeux de données biaisées, appliquent des méthodes statistiques dont la qualité laisse à désirer, ne savent pas se prémunir contre les biais des chercheurs et gonflent leurs résultats. Pas étonnant dès lors que l’on constate un niveau préoccupant de pratiques contraires à l’éthique, de falsification de l’évaluation par les pairs et de retraits d’articles. The Economist a récemment mis en évidence le nombre de travaux bâclés et non reproductibles et le coût élevé que cela représente pour la société (7). L’hebdomadaire affirmait avec force que la science actuelle n’est pas fiable et a besoin d’être réformée. Vu la difficulté qu’il y a à détecter, révéler ou reconnaître les manquements à l’intégrité scientifique, nous pouvons être quasiment sûrs qu’il y a bien plus de cas que ceux dont nous avons connaissance. Les alertes sur l’existence d’un problème systémique remontent au moins à 1991. Le directeur de la Fondation nationale pour la science (NSF), Walter E. Massey, avait alors observé que l’envergure, la complexité et la nature de plus en plus pluridisciplinaire de la recherche, dans un contexte de concurrence croissante, rendaient la science et « plus vulnérables à la malhonnê­teté ».

encadre 5
Pour la NSF, les manquements à l’intégrité de la recherche sont « la ­fabrication et la falsification des résultats ou le plagiat dans la présentation d’un projet de recherche, son exécution, son évaluation ou l’exposé de ses résultats » (8). Après enquête, les Instituts nationaux de la santé (NIH) et la NSF ont conclu à la fraude dans respectivement 20 à 33 % des cas de manquement à l’intégrité scientifique dont ils ont été saisis. Ces enquêtes ont un coût total annuel de 110 millions de dollars. Entre 1992 et 2012, 291 articles scientifiques publiés avec des fonds alloués par les NIH ont été retirés pour cause de fraude. 58 millions de dollars avaient été octroyés à ces projets.

De toute évidence, le nombre de manquements qui passent inaperçus est plusieurs fois supérieur au nombre de cas de fraude instruits chaque année. Mais il est difficile d’en apprécier l’ampleur. Une méta-analyse exhaustive des enquêtes pour fraude menées entre 1987 et 2008 indique qu’un chercheur sur cinquante admet avoir commis au moins un manquement à l’intégrité (fabrication, falsification ou modification des données), et que 14 % de ces scientifiques connaissent au moins un collègue en ayant commis. Vu le caractère sensible des questions posées et le faible taux de réponse, il est fort probable que ces chiffres soient en deçà de la réalité. ­Depuis 1975, en sciences de la vie et en biomédecine, le pourcentage d’articles scientifiques retirés a été multiplié par dix ; 67 % des rétractations étaient dues à un manquement à l’intégrité. Parmi les causes avancées pour expliquer cette croissance,figurent « l’attrait exercé par les revues prestigieuses », « un rythme de publication pathologique », l’insuffisance des mesures antifraude, la culture universitaire, le souci de sa carrière et les incitations perverses. De la climatologie à la corrosion galvanique, nous voyons des publications qui insultent l’éthique scientifique et sapent la crédibilité de la communauté scientifique et de tous ceux qui en font partie.
La recherche universitaire repose sur le principe de l’autonomie. On attend de la science qu’elle se corrige d’elle-même et fasse sa propre police. Or elle n’a jamais élaboré de système clair pour déclarer les allégations de méconduite et enquêter dessus. Ceux qui dénoncent une fraude ne disposent pas d’un moyen facile et évident pour le faire, et cela risque de nuire à leur carrière. Dans leur profession, les scientifiques exercent largement en suivant un code de l’honneur tacite, qui ne répond à ­aucune obligation formelle. Aujourd’hui, il y a de bonnes raisons de douter que la science dans son ensemble soit capable de se corriger d’elle-même. Nous ne sommes pas les premiers à pointer ce problème. Des scientifiques ont plaidé pour le libre accès aux données, pour une évaluation par les pairs après publication, pour davantage de méta-analyses et pour la reproduction des études de référence. Si bénéfiques que puissent se révéler ces mesures correctives, les incitations perverses agissant sur les individus et les institutions restent le fond du problème.

Il est arrivé de manière exceptionnelle que des chercheurs aient ramené à leurs justes proportions des découvertes présentées à grand renfort de publicité, surtout dans des domaines jugés potentiellement révolutionnaires (ainsi, en 2017, les commentaires en temps réel sur le blog de Jonathan A. Eisen, professeur à l’université de Californie, sur l’engouement pour le « microbiome »). Mais, le plus souvent, les faiblesses repérables dans les domaines de recherche en vogue sont minimisées ou ignorées. Parce que tous les phénomènes de mode scientifiques créent un effet d’aubaine en termes d’évaluation quantitative pour les chercheurs, et parce que les responsables d’une bulle scientifique subissent peu de conséquences quand elle éclate, le seul garde-fou efficace contre la science pathologique et contre la mauvaise affectation des ressources est le code d’honneur tacite.
Les chercheurs ne sont pas les seuls à commettre des manquements à l’intégrité. Les incitations perverses et l’hyper­concurrence concernent également les organismes publics, donnant lieu à un nouveau phénomène de manquement à l’intégrité scientifique institutionnel. Les Centres de contrôle et de prévention des maladies (CDC), par exemple, ont produit un rapport ­erroné sur la crise de l’eau ­potable à Washington, assurant que les concentrations extrêmement élevées de plomb dans l’eau n’avaient pas eu d’incidence sur les enfants.
Les CDC ayant refusé de corriger leur rapport mais aussi de le défendre, une commission d’enquête du Congrès avait dû intervenir pour conclure que le rapport était « scientifiquement indéfendable ». Quelques mois après avoir été tancé par le Congrès, le même département des CDC produisait un autre rapport, « entaché d’erreurs » ­selon l’agence Reuters, cette fois sur la contamination au plomb des sols, de l’eau potable et de l’air à East Chicago, dans l’Indiana, et de ses effets sur les enfants et les minorités vulnérables de la région.

L’Agence américaine de protection de l’environnement (EPA), de son côté, a publié des rapports scientifiques fondés sur des données inexistantes. Récemment, elle a fait taire ses propres lanceurs d’alerte pendant la crise de l’eau contaminée qu’a connue la ville de Flint, dans le Michigan. Comme les organismes sont de plus en plus en concurrence pour maintenir leurs capacités de financer la recherche et leur flux de trésorerie, ils semblent plus enclins à publier des « bonnes nouvelles » plutôt que de la science. En ces temps de réductions budgétaires, les organismes fédéraux ont des conflits d’intérêts financiers et craignent pour leur survie au même titre que ceux du secteur privé. Une idée fausse, mais répandue, voulant que les organismes fédéraux de financement échappent à ces conflits, les risques de manquement à l’intégrité scientifique des établissements publics de recherche pourraient égaler, voire dépasser, ceux qui sont présents dans la ­recherche financée par le secteur ­privé, puisqu’il n’existe pas de garde-fou et que les consommateurs de leurs travaux peuvent se montrer fort crédules.
Si nous ne réformons pas la recherche scientifique universitaire, nous risquons de jeter le discrédit sur la science et de la déconsidérer aux yeux de l’opinion ­publique. Aujourd’hui, la recherche universitaire, que The Economist qualifie de « système de Ponzi », fonctionne selon un système d’incitations perverses qui aurait été presque inconcevable pour les chercheurs il y a cinquante ans (9). Nous estimons que ce système compromet l’avenir de la science. Si aucune mesure immédiate n’est prise, nous risquons de créer une culture professionnelle viciée, semblable à celle qui a été mise en évidence dans le cyclisme professionnel (20 des 21 coureurs montés sur le podium du Tour de France entre 1999 et 2005 ont été déclarés positifs au dopage). Un système d’incitations perverses y a créé un environnement dans lequel les ­sportifs ont acquis la conviction qu’il fallait tricher pour rester dans la compétition. Les enjeux pour la science sont nettement plus élevés. La raréfaction des acteurs altruistes et la perte de confiance dans la science sont susceptibles de causer des dégâts autrement plus importants pour la société et la planète.

 

C'est gratuit !

Recevez chaque jour la Booksletter, l’actualité par les livres.

— Cet article est paru dans la revue en ligne Aeon le 7 novembre 2017. Il a été publié précédemment dans la revue Environmental Engineering Science. Il a été traduit par Pauline Toulet et Olivier Postel-Vinay.

Notes

1. Conçu par le physicien Jorge Hirsch, en 2005, le h-index ou indice h est fondé sur l’ensemble des articles du chercheur évalué qui ont été le plus cités et sur le nombre de citations de ces articles dans d’autres articles scientifiques. L’indice h peut se calculer pour une revue, un laboratoire, une université, voire un pays.

2. Enquête menée auprès de 150 chercheurs par Nature en 2010. Près de 75 % d’entre eux disent que leurs collègues peuvent gonfler leurs chiffres, par exemple en publiant plusieurs articles sur la même recherche.

3. Incidemment, le numéro 1 du palmarès de l’indice h n’est pas Einstein (en 36e position), mais Freud.

4. Dans un article publié en 2016, Paul E. Smaldino et Richard McElreath font valoir que le système actuel conduit à une pression de sélection en faveur de la mauvaise science, même en dehors de toute mauvaise foi ou intention de tricher (« The natural selection of bad science », Royal Society Open Science).

5. « Threshold Models of Collective Behavior », American Journal of Sociology.

6. Le physicien Peter Higgs, qui avait prévu dans les années 1960 l’existence du boson qui porte son nom, déclarait lui aussi en 2013 : « Aujourd’hui je ne trouverais pas de poste à l’université. C’est aussi simple que ça. Je pense que je ne serais pas considéré comme assez productif. »

7. Un responsable des NIH cité par The Economist estime que les scientifiques ne pourraient sans doute pas reproduire « au moins trois quarts des résultats de recherche publiés en biomédecine ».

8. Le terme misconduct est rendu en français dans ce contexte par « manquement à l’intégrité » ou « méconduite ».

9. Un système de Poney est un montage frauduleux qui consiste à rémunérer les investissements des clients essentiellement par les fonds procurés par les nouveaux entrants.

LE LIVRE
LE LIVRE

Fostering Integrity in Research de Des scientifiques intègres comme des coureurs du Tour de France, The National Academies Press, 2017

SUR LE MÊME THÈME

Dossier « AMLO », le messie du Mexique
Dossier La planète des régimes autoritaires
Dossier Donald Trump, les premiers pas d’un apprenti autocrate

Aussi dans
ce numéro de Books

Booksletter,
c'est gratuit !

Retrouvez gratuitement la Booksletter
chaque samedi matin dans votre boîte email.