$$\newcommand{\mtn}{\mathbb{N}}\newcommand{\mtns}{\mathbb{N}^*}\newcommand{\mtz}{\mathbb{Z}}\newcommand{\mtr}{\mathbb{R}}\newcommand{\mtk}{\mathbb{K}}\newcommand{\mtq}{\mathbb{Q}}\newcommand{\mtc}{\mathbb{C}}\newcommand{\mch}{\mathcal{H}}\newcommand{\mcp}{\mathcal{P}}\newcommand{\mcb}{\mathcal{B}}\newcommand{\mcl}{\mathcal{L}} \newcommand{\mcm}{\mathcal{M}}\newcommand{\mcc}{\mathcal{C}} \newcommand{\mcmn}{\mathcal{M}}\newcommand{\mcmnr}{\mathcal{M}_n(\mtr)} \newcommand{\mcmnk}{\mathcal{M}_n(\mtk)}\newcommand{\mcsn}{\mathcal{S}_n} \newcommand{\mcs}{\mathcal{S}}\newcommand{\mcd}{\mathcal{D}} \newcommand{\mcsns}{\mathcal{S}_n^{++}}\newcommand{\glnk}{GL_n(\mtk)} \newcommand{\mnr}{\mathcal{M}_n(\mtr)}\DeclareMathOperator{\ch}{ch} \DeclareMathOperator{\sh}{sh}\DeclareMathOperator{\th}{th} \DeclareMathOperator{\vect}{vect}\DeclareMathOperator{\card}{card} \DeclareMathOperator{\comat}{comat}\DeclareMathOperator{\imv}{Im} \DeclareMathOperator{\rang}{rg}\DeclareMathOperator{\Fr}{Fr} \DeclareMathOperator{\diam}{diam}\DeclareMathOperator{\supp}{supp} \newcommand{\veps}{\varepsilon}\newcommand{\mcu}{\mathcal{U}} \newcommand{\mcun}{\mcu_n}\newcommand{\dis}{\displaystyle} \newcommand{\croouv}{[\![}\newcommand{\crofer}{]\!]} \newcommand{\rab}{\mathcal{R}(a,b)}\newcommand{\pss}[2]{\langle #1,#2\rangle} $$
Bibm@th

Paradoxe de Simpson

Le paradoxe de Simpson est un paradoxe des statistiques qui fait que, lorsqu'on réunit certaines données et qu'on les analyse globalement, on trouve un résultat contradictoire à l'analyse que l'on ferait en analysant ces données seules. Prenons un exemple. On a analysé les résultats au bac dans un lycée, et on a obtenu le résultat suivant :

 
année 2022
année 2023
 
inscrits
reçus
inscrits
reçus
non redoublants
22
12
15
8
redoublants
3
3
10
9

Voici, à la suite de ce tableau, les commentaires du proviseur et d'un élève :

  • Le proviseur : "L'année 2023 marque une progression de plus de 13% de la réussite au bac dans notre lycée. Je félicite les professeurs!"
  • Un élève : "Que l'on soit redoublant ou pas, cette année cela a moins bien marché. Je ne félicite pas les profs!"

Ces avis sont pour le moins contradictoires... Et pourtant ils sont tous les deux justifiés!

  • En 2022, il y a 15 reçus pour 25 inscrits, c'est-à-dire un taux de réussite de 15/25 ou encore 60%. En l'an 2023, il y a tous 25 inscrits, mais cette fois 17 reçus, et donc un taux de réussite de 68%. Comme 60*1.13=67,8, la progression du taux de réussite global est bien supérieure à 13%
  • Pour les redoublants, le taux de réussite en 2022 est de 100%, tandis qu'en 2023 il est de 90%. Pour les non-redoublants, le taux de réussite passe de 12/22*100, soit à peu près 54,5%, à 8/15*100, soit à peu près 53,3%. Il y a donc bien une baisse du taux de réussite pour les deux catégories!

  Ainsi, il est possible que le taux de réussite des redoublants baisse, que le taux de réussite des non-redoublants baisse aussi, et que pourtant le taux de réussite global progresse! Comment est-ce possible? C'est tout simplement qu'en 2023 il y a plus de redoublants, et que leur contribution au taux de réussite est plus importante qu'en 2022. Comme leur taux de réussite est supérieur à la moyenne, cette moyenne se voit tirer vers le haut....

Si ce paradoxe porte le nom du statisticien britannique E. Simpson qui, l'a étudié en 1951, il semble que c'est le statisticien écossais George U Yule qui l'a mis en lumière pour la première fois en 1903.
Recherche alphabétique
Recherche thématique