$$\newcommand{\mtn}{\mathbb{N}}\newcommand{\mtns}{\mathbb{N}^*}\newcommand{\mtz}{\mathbb{Z}}\newcommand{\mtr}{\mathbb{R}}\newcommand{\mtk}{\mathbb{K}}\newcommand{\mtq}{\mathbb{Q}}\newcommand{\mtc}{\mathbb{C}}\newcommand{\mch}{\mathcal{H}}\newcommand{\mcp}{\mathcal{P}}\newcommand{\mcb}{\mathcal{B}}\newcommand{\mcl}{\mathcal{L}} \newcommand{\mcm}{\mathcal{M}}\newcommand{\mcc}{\mathcal{C}} \newcommand{\mcmn}{\mathcal{M}}\newcommand{\mcmnr}{\mathcal{M}_n(\mtr)} \newcommand{\mcmnk}{\mathcal{M}_n(\mtk)}\newcommand{\mcsn}{\mathcal{S}_n} \newcommand{\mcs}{\mathcal{S}}\newcommand{\mcd}{\mathcal{D}} \newcommand{\mcsns}{\mathcal{S}_n^{++}}\newcommand{\glnk}{GL_n(\mtk)} \newcommand{\mnr}{\mathcal{M}_n(\mtr)}\DeclareMathOperator{\ch}{ch} \DeclareMathOperator{\sh}{sh}\DeclareMathOperator{\th}{th} \DeclareMathOperator{\vect}{vect}\DeclareMathOperator{\card}{card} \DeclareMathOperator{\comat}{comat}\DeclareMathOperator{\imv}{Im} \DeclareMathOperator{\rang}{rg}\DeclareMathOperator{\Fr}{Fr} \DeclareMathOperator{\diam}{diam}\DeclareMathOperator{\supp}{supp} \newcommand{\veps}{\varepsilon}\newcommand{\mcu}{\mathcal{U}} \newcommand{\mcun}{\mcu_n}\newcommand{\dis}{\displaystyle} \newcommand{\croouv}{[\![}\newcommand{\crofer}{]\!]} \newcommand{\rab}{\mathcal{R}(a,b)}\newcommand{\pss}[2]{\langle #1,#2\rangle} $$
Bibm@th

Les méfaits des statistiques

Le saviez-vous??? On peut faire dire un peu tout et n'importe quoi aux statistiques et autres sondages. Le but des quelques exemples qui vont émailler cette page est de vous prouver comment les journalistes peuvent nous mentir en jouant avec des chiffres, qu'ils ne maîtrisent pas forcément très bien...

L'espérance de vie des médecins

Entendu à la radio : "L'espérance de vie d'un homme est d'environ 70 ans, celle d'un médecin de 83 ans : on n'est jamais aussi bien soigné que par soi-même...". A la première lecture (ou écoute), rien ne semble faux dans ce raisonnement. Et pourtant... L'espérance de vie d'un homme, c'est la moyenne des âges de mort des gens nés en même temps que lui. Prenons un exemple très simple, où nous supposons que nous avons un échantillon de 100 personnes, toutes nées la même année, et dont la répartition des âges de mort est donné par le tableau suivant :

Age de mort 0 10 20 30 40 50 60 70 80 90 100
Effectif 5 2 2 2 4 8 12 15 25 15 10

L'espérance de vie de cette population est donc :

Remarquons que, alors que la moitié de la population meurt à 80 ans et après, l'espérance de vie est 10 ans moindre : les gens morts à la naissance, ou à moins de 10 ans, tirent la moyenne vers le bas.

Retournons à nos médecins : pour accéder à cette condition, il faut avoir réalisé de longues études, et donc avoir vécu au moins jusque 25 ans. Parmi les personnes décédées plus jeunes, on ne peut savoir lesquelles auraient été médecins si elles avaient vécu plus vieux. Il faut donc calculer l'espérance de vie de quelqu'un qui a déjà vécu au moins 25 ans pour pouvoir comparer avec les médecins. Et là on trouve :

Quand on utilise un échantillon comparable, on ne trouve pas de différence par rapport aux médecins. Tout le problème que nous venons d'évoquer est celui des probabilités conditionnelles, et des connaissances que l'on sait a priori et qui peuvent modifier les statistiques indépendamment d'autres facteurs!

La réussite au baccalauréat

Un de ces grands hebdomadaires qui publie chaque année une grande enquête intitulée "Quel est le meilleur Lycée???" a réalisé cette enquête auprès d'une classe de terminale, afin de connaitre l'évolution du taux de réussite dans ce lycée :

 
année 2002
année 2003
 
inscrits
reçus
inscrits
reçus
non redoublants
22
12
15
8
redoublants
3
3
10
9

Voici, à la suite de ce tableau, les commentaires du proviseur et d'un élève :

  • Le proviseur : "L'année 2003 marque une progression de plus de 13% de la réussite au bac dans cette classe - Je félicite les professeurs!"
  • Un élève : "Que l'on soit redoublant ou pas, cette année cela a moins bien marché. Je ne félicite pas les profs!"

Ces avis sont pour le moins contradictoires... Et pourtant ils sont tous les deux justifiés!

  • En 2002, il y a 15 reçus pour 25 inscrits, c'est-à-dire un taux de réussite de 15/25 ou encore 60%. En l'an 2003, il y a tous 25 inscrits, mais cette fois 17 reçus, et donc un taux de réussite de 68%. Comme 60*1.13=67,8, la progression du taux de réussite global est bien supérieure à 13%
  • Pour les redoublants, le taux de réussite en 2002 est de 100%, tandis qu'en 2003 il est de 90%. Pour les non-redoublants, le taux de réussite passe de 12/22*100, soit à peu près 54,5%, à 8/15*100, soit à peu près 53,3%. Il y a donc bien une baisse du taux de réussite pour les deux catégories!

Ainsi, il est possible que le taux de réussite des redoublants baisse, que le taux de réussite des non-redoublants baisse aussi, et que pourtant le taux de réussite global progresse! De quoi se méfier des raisonnements rapides sur les chiffres. Comment est-ce possible? C'est tout simplement qu'en 2003 il y a plus de redoublants, et que leur contribution au taux de réussite est plus importante qu'en 2002. Comme leur taux de réussite est supérieur à la moyenne, cette moyenne se voit tirer vers le haut....

Pour ce qui est de savoir qui du proviseur ou de l'élève reflète le mieux la situation, je vous laisse seul juge!

Enfants de familles nombreuses

On a demandé à 1000 Français (adultes) combien ils ont d'enfants : la moyenne est de 2. On a demandé aussi aux enfants de ces 1000 personnes combien d'enfants ils sont dans leur familles. La moyenne des réponses est....3!!!! Alors, erreur de calcul, quelqu'un a-t-il menti????? Mais non! Les enfants des familles nombreuses sont plus nombreux!!! Illustrons sur un exemple plus facile. On interroge deux parents : le premier a 1 enfant, le deuxième a 3 enfants, donc la moyenne pour les parents est de (1+3)/2=2! Maintenant on interroge leurs enfants, ils sont 4. Un est enfant unique, les trois autres sont trois dans leur foyer, la moyenne pour les enfants est donc : (1+3+3+3)/4=2,5.

La prochaine fois que vous lirez ce genre de statistiques, demandez-vous de quel point de vue on se place!