Fondue et nuit paisible

Les statistiques nous apprennent qu’aux Etats-Unis, la consommation de fromage par habitant suit pratiquement la même courbe que celle du nombre de personnes décédées en s’emmêlant dans leurs draps de lit.

Que faut-il en conclure? Que la consommation de fromage est associée au risque de mourir dans son lit?

Une telle conclusion est bien évidemment absurde. Les deux phénomènes n’ont strictement rien à voir l’un avec l’autre, si ce n’est qu’ils présentent la même courbe statistique.

Le spécialiste de la statistique médicale et mathématicien Gerd Antes utilise l’exemple ci-dessus pour montrer que le big data n’aboutit pas forcément à des diagnostics plus fiables. Les corrélations fortuites augmentent avec la masse de données. Or, plus il y a de données, plus le nombre de corrélations aléatoires erronées croît. Et plus il sera difficile, à l’avenir, de distinguer les vraies relations de cause à effet des fausses – ce qui est précisément la finalité du diagnostic.

Gerd Antes: «Dans le contexte, on parle également de bruit de mesure. Le bruit que font les corrélations erronées couvre celui des corrélations correctes.»

Et selon Antes, ce bruit qui couvre tout ne concerne pas que la médecine, mais également et surtout les médias: «Dans le journalisme de données, le risque existe que vous découvriez un rapport entre deux données et que vous en fassiez un sujet d’article. Alors qu’en réalité, la corrélation était due au hasard et sans fondement.»

Il est une corrélation qui ne doit rien au hasard, toutefois: pour bien dormir, mieux vaut ne pas déguster une fondue un soir d’été caniculaire.

Mais cela, on le savait bien avant l’avènement du big data.

L’interview avec Gerd Antes a été publiée dans le «Bund» du lundi 23 juillet 2018.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *