Probabilités

Vous êtes iciProbabilités > Repères > Causalité et corrélation
Probabilités

Distinguer causalité et corrélation

 

Sur la confusion corrélation-causalité, l'humoriste Coluche est une source inépuisable de « raisonnements » fantaisistes. Se faire les dents avec ses blagues est un excellent exercice : on les retrouve sous la plume de gens qui sont loin d'être des humoristes volontaires (voir la fiche En Pratique Collège « Causes ou conséquences »). 

On peut ainsi discuter les affirmations suivantes : « Quand on est malade, il ne faut surtout pas aller à l'hôpital : la probabilité de mourir dans un lit d'hôpital est 10 fois plus grande que dans son lit à la maison1 ».

Ou bien : « 1/3 des accidents de la route étant dus à des conducteurs alcooliques, qu'est ce qu'on attend pour punir les 2/3 de conducteurs sobres responsables de la majorité des accidents ? »... 

Plus sérieusement maintenant. 

  1. Une étude anglaise a prouvé que les gens habitant près de pylônes à haute tension étaient significativement plus souvent malades que le reste de la population. Est-ce la faute du courant électrique ? Ce n'est pas évident parce qu'une autre étude a révélé que les habitants sous les pylônes étaient en moyenne plus pauvres ; et on sait les liens santé-pauvreté... À elle seule, cette étude ne permet pas de conclure.
  2. Les assurances ont établi que 50 % des accidents arrivaient sur un trajet de moins de 30 km. On en a conclu – un peu vite – que l'habitude des courts trajets pour aller travailler favorisait le manque d'attention des conducteurs. Il est possible que ce soit vrai, mais la « démonstration » est fausse : la plupart des trajets font moins de 30 km !
  3. Le conseil de l'Ordre des médecins a publié une étude prouvant que ceux qui pratiquaient régulièrement le jogging à l'âge de 60 ans avaient une probabilité de se trouver en bonne santé à l'âge de 70 ans plus grande que la population normale. Conclusion de l'Ordre, le jogging est une bonne pratique. Il est encore possible que ce soit vrai, mais ce n'est pas une démonstration : la population qui pratique le jogging à 60 ans concentre ceux qui sont déjà en bonne santé. On a donc seulement prouvé que ceux qui sont en bonne santé à 60 ans ont plus de chance de l’être encore 10 ans plus tard.

On conclura donc que deux événements peuvent être corrélés (reliés) sans pour autant avoir des rapports de cause à effet. Par exemple, on ne meurt pas plus2 parce qu'on est dans un lit d'hôpital, mais on y est parce qu'on est malade, et quand on est malade la probabilité de mourir est plus grande. Il en va ainsi des corrélations délinquance et origine ethnique : même à supposer qu'elles soient vraies, elles ne démontrent pas le rapport de cause à effet ; il peut se faire que la pauvreté, voire la détresse, soient liées à des discriminations ethniques, c'est alors cette misère qui est une cause possible de délinquance.

Démontrer une théorie avec seulement des statistiques peut être trompeur. Souvent la théorie préexiste et les chiffres sont ensuite utilisés pour la conforter « scientifiquement ». Trois mises en garde s'imposent :

  1. il faut toujours vérifier que les données sont significatives. En nombre, comme on l'a vu, c'est évident ; mais aussi en qualité. Par exemple, l'affirmation suivante est stupide : les employés sont paresseux car les demandes de congé maladie concernent prioritairement, en moyenne, les jours de week-end, la veille ou le lendemain. En effet si on suppose les demandes équiréparties (donc sans volonté de triche), celles qui tombent dans la fourchette critiquée sont au nombre de quatre (vendredi, samedi, dimanche, lundi), ce qui fait déjà une probabilité de 4/7 ;
  2. la théorie doit avoir un pouvoir explicatif, ne serait-ce que pour savoir dans quel sens lire les corrélations. Il est par exemple maintenant bien établi qu'historiquement les variations de température sont étroitement liées aux variations de concentration de gaz carbonique dans l'atmosphère. Mais on ne peut faire l'économie de comprendre par la théorie si c'est le réchauffement qui crée l'excès de gaz carbonique, ou l'inverse ; 
  3. enfin, même si la moyenne est significative, son exploitation peut être délicate. La connaissance de la moyenne est importante, mais tout aussi important est de savoir si les résultats seront souvent loin ou proches de cette moyenne. Dire par exemple qu'avec tel cancer on a en moyenne 5 années à vivre ne suffit pas ; il faut encore connaître la dispersion : savoir si beaucoup de gens dépasseront cette moyenne (évidemment d'autres alors mourront plus tôt !). Il en va de même du revenu moyen des individus d'un pays : il peut y avoir beaucoup de pauvres et quelques individus colossalement riches assurant un revenu moyen finalement « raisonnable » dans un pays globalement misérable.

Terminons par une remarque sur la trop fameuse « loi des séries ». Elle n'existe tout simplement pas. Souvent invoquée en cas de catastrophes quasi simultanées (accidents d'avions, crimes, etc.), elle a pour origine la croyance que s'il se produit, par exemple, en moyenne 12 crashs aériens par an, il s'en produira globalement un par mois. Il y aurait alors besoin d'une « loi » pour expliquer pourquoi il n'en n'a pas été ainsi. Si on demande de dessiner 12 dates d'accident « au hasard3 » , la grande majorité des gens dessinera quelque chose comme T1. Demandons la même chose au calculateur4, on obtiendra T2. 

 

Tirages de 12 points « au hasard » : T1 , tirage « humain », T2, tirage à la machine.

 

La différence saute aux yeux. Le tirage « humain » est beaucoup plus régulier, presque équiréparti. Tout se passe comme si le tireur, après avoir tiré un point, décrétait une zone d'évitement autour de ce point pour les tirages suivants. Comme il sait qu'avec un nombre suffisamment grand de points, le segment de droite sera uniformément rempli, il anticipe pour ainsi dire en ne laissant aucun trou. En fait, les tirages deviennent alors corrélés ; ils ne sont plus indépendants. La machine, qui n'a pas de psychologie, n'anticipe pas. Elle permet des accumulations et donc des vides de points. Conclusion : si vraiment les accidents arrivent par hasard (T2), on voit alors qu'on peut avoir 3 accidents en un mois, précisément parce qu'il n'y a pas de loi5. C'est pour avoir la distribution T1 qu'il en faudrait une !

 

Le hasard en une dimension : lancer la simulation

Et en deux dimensions : lancer la simulation

 

Nous avons voulu écrire un texte de repère très général, de l'école au lycée. Bien entendu pour les élèves de terminale, scientifique ou pas, on doit multiplier les problèmes et surtout faire comparer deux très beaux textes classiques de Laplace (1749-1827) et Poincaré (1860-1934) portant sur le déterminisme et le hasard. Ils sont reproduits dans le Thém@doc « Le chaos déterministe », étude de texte (élève)

Hubert Krivine,
maître de conférences honoraire
à l'université Pierre-et-Marie-Curie

 


 

1 Ce qui ne doit pas faire oublier le grain de vérité des maladies nosocomiales.
2 Il y aurait bien sûr les infections nosocomiales qui compliquent le tableau.
3 C'est-à-dire que chaque date est choisie indépendamment des autres.
4 On peut bien sûr se demander comment une machine déterministe peut tirer « au hasard ». En fait c'est un pseudo-hasard, mais qui sur des petits tirages (moins de quelques millions) a toutes les caractéristiques du vrai hasard.
5 Bien entendu, si un modèle d'avion a des accidents répétés, on doit rechercher une malformation systématique ; mais il est souvent difficile de distinguer une statistique pathologique d'une statistique normale.