$$\newcommand{\mtn}{\mathbb{N}}\newcommand{\mtns}{\mathbb{N}^*}\newcommand{\mtz}{\mathbb{Z}}\newcommand{\mtr}{\mathbb{R}}\newcommand{\mtk}{\mathbb{K}}\newcommand{\mtq}{\mathbb{Q}}\newcommand{\mtc}{\mathbb{C}}\newcommand{\mch}{\mathcal{H}}\newcommand{\mcp}{\mathcal{P}}\newcommand{\mcb}{\mathcal{B}}\newcommand{\mcl}{\mathcal{L}} \newcommand{\mcm}{\mathcal{M}}\newcommand{\mcc}{\mathcal{C}} \newcommand{\mcmn}{\mathcal{M}}\newcommand{\mcmnr}{\mathcal{M}_n(\mtr)} \newcommand{\mcmnk}{\mathcal{M}_n(\mtk)}\newcommand{\mcsn}{\mathcal{S}_n} \newcommand{\mcs}{\mathcal{S}}\newcommand{\mcd}{\mathcal{D}} \newcommand{\mcsns}{\mathcal{S}_n^{++}}\newcommand{\glnk}{GL_n(\mtk)} \newcommand{\mnr}{\mathcal{M}_n(\mtr)}\DeclareMathOperator{\ch}{ch} \DeclareMathOperator{\sh}{sh}\DeclareMathOperator{\th}{th} \DeclareMathOperator{\vect}{vect}\DeclareMathOperator{\card}{card} \DeclareMathOperator{\comat}{comat}\DeclareMathOperator{\imv}{Im} \DeclareMathOperator{\rang}{rg}\DeclareMathOperator{\Fr}{Fr} \DeclareMathOperator{\diam}{diam}\DeclareMathOperator{\supp}{supp} \newcommand{\veps}{\varepsilon}\newcommand{\mcu}{\mathcal{U}} \newcommand{\mcun}{\mcu_n}\newcommand{\dis}{\displaystyle} \newcommand{\croouv}{[\![}\newcommand{\crofer}{]\!]} \newcommand{\rab}{\mathcal{R}(a,b)}\newcommand{\pss}[2]{\langle #1,#2\rangle} $$
Bibm@th

Tests du $\chi^2$

Les tests du $\chi^2$ (à prononcer 'qui-2') sont des tests d'hypothèses statistiques non-paramétriques. Ils tirent leur nom du fait que l'on lit l'écart critique dans la table de la loi du $\chi^2.$ Ils sont essentiellement au nombre de trois :

  1. le test du $\chi^2$ d'ajustement, ou d'adéquation, qui compare globalement la distribution observée dans un échantillon statistique à une distribution théorique.
  2. le test du $\chi^2$ d'indépendance, qui teste si deux caractères d'une population sont indépendants.
  3. le test d'homogénéité, qui teste si des échantillons sont issus d'une même population.
Test d'ajustement du $\chi^2$

Le but de ce test est de comparer une distribution théorique d'un caractère à une distribution observée. Pour cela, le caractère doit prendre un nombre fini de valeurs, ou bien ces valeurs doivent être rangées en un nombre fini de classes.

  • Données :
    • un caractère $A$ dont les valeurs possibles sont réparties en $k$ classes $A_1,\dots,A_k$. La probabilité théorique dans chacune des classes est notée $p_1,\dots,p_k.$
    • $n$ observations, qui donnent un effectif $n_1$ pour la classe $A_1,$ ... , $n_k$ pour la classe $A_k.$ Bien sûr, on doit avoir $n_1+\cdots+n_k=n.$
  • Hypothèse testée : "La distribution observée est conforme à la distribution théorique" avec un risque d'erreur $a.$
  • Déroulement du test :
    1. On calcule les effectifs théoriques $np_j.$
    2. On calcule la valeur observée de la variable de test : $$\chi^2=\sum_{j=1}^k \frac{(n_j-np_j)^2}{np_j}.$$
    3. On cherche la valeur critique $\chi^2_a$ dans la table de la loi du $\chi^2$ à $k-1$ degrés de liberté.
    4. Si $\chi^2\leq \chi^2_a,$ on accepte l'hypothèse, sinon on la rejette.
    5. Vérification a posteriori des conditions d'application : il faut $np_j\geq 5$ pour tout $j$.
Test d'indépendance du $\chi^2$

Le test d'indépendance du $\chi^2$ permet de contrôler l'indépendance de deux caractères dans une population donnée.

  • Données :
    • 2 variables $X$ et $Y$, les valeurs possibles de $X$ sont réparties en $\ell$ classes $A_1,\dots,A_\ell$, celles de $Y$ en $c$ classes $B_1,\dots,B_c$.
    • $n$ observations réparties en $\ell\times c$ effectifs observés : $n_{i,j}$ observations ont donné à la fois $A_i$ et $B_j$, avec donc $\sum_{i,j}n_{i,j}=n$.
  • Hypothèse testée : "Les variables $X$ et $Y$ sont indépendantes".
  • Déroulement du test :
    1. On crée le tableau des effectifs qui est un tableau à double-entrée. A l'intersection de la $i$-ème ligne et de la $j$-ième colonne, on écrit l'effectif $n_{i,j}$.
    2. On "borde" le tableau pour calculer les effectifs marginaux : $L_i$ est la somme des termes sur la $i$-ème ligne, $C_j$ est la somme des termes sur la $j$-ième colonne. $$\begin{array}{c|c|c|c|c} &&\quad j \quad &&\\ \hline &\quad \cdots\quad&\cdots&\quad\cdots\quad&\quad\cdots\quad\\ \hline \quad i \quad&\cdots&n_{i,j}&\cdots&L_i\\ \hline &\quad \cdots\quad&\cdots&\quad\cdots\quad&\quad\cdots\quad\\ \hline &&C_j&& \end{array}$$
    3. On calcule les effectifs théoriques (ceux que l'on s'attend à rencontrer si $X$ et $Y$ étaient indépendantes) : $$e_{i,j}=\frac{L_i\times C_j}n.$$
    4. On calcule la valeur de la variable de test : $$\chi^2=\sum_{i=1}^{\ell}\sum_{j=1}^c \frac{(n_{i,j}-e_{i,j})^2}{e_{i,j}}.$$
    5. On cherche la valeur critique $\chi^2_a$ dans la table de la loi du chi-2 à $(\ell-1)\times (c-1)$ degrés de liberté.
    6. Si $\chi^2<\chi^2_a$, on accepte l'hypothèse, sinon on la rejette.
    7. Vérification a posteriori des conditions d'application : il faut que les effectifs théoriques vérifient $e_{i,j}\geq 5$ pour tous i,j.

Exemple : Pour comparer l'efficacité de deux médicaments agissant sur la même maladie, mais aux prix très différents, la Sécurité Sociale a effectué une enquête sur les guérisons obtenues en suivant chacun des traitements. Les résultats sont consignés dans le tableau suivant : $$\begin{array}{c|c|c|c} &\textrm{Médicament cher}&\textrm{Médicament bon marché} & \\ \hline \textrm{Guérisons}&44&156&200 \\ \hline \textrm{Non guérisons}&6&44&50 \\ \hline &50&200&250 \end{array}$$ On a déjà effectué le calcul des effectifs marginaux. Les effectifs théoriques sont : $$e_{1,1}=\frac{200\times 50}{250},\ e_{1,2}=\frac{200\times 200}{250},\ e_{2,1}=\frac{50\times 50}{250},\ e_{2,2}=\frac{50\times 200}{250}.$$ La variable de test vaut approximativement $2,\!5,$ alors que la valeur critique, pour un niveau de risque de $5\%,$ est $3,\!84$ (on explore la table du $\chi^2$ à un degré de liberté). On peut donc raisonnablement estimer ici que le taux de guérison ne dépend pas du prix du médicament et se poser des questions sur l'opportunité de continuer à vendre le médicament cher.

Test d'homogénéité du $\chi^2$

Le problème d'homogénéité est le suivant. On a réalisé $\ell$ études statistiques où on a observé un caractère dont la valeur est répartie en $c$ classes $A_1,\dots,A_c.$ Si les échantillons de chaque étude étaient parfaitement représentatifs d'une même population, les proportions d'individus de chaque classe seraient exactement les mêmes. Ce n'est évidemment jamais le cas, et un test d'homogénéité consiste à étudier si cela est dû aux fluctuations d'échantillonage ou bien au fait que les échantillons proviennent de populations différentes.

Un problème d'homogénéité peut en fait toujours se traduire en problème d'indépendance : est-ce que la proportion d'individus dans chaque classe est indépendante de l'étude statistique réalisée. Le test d'indépendance du $\chi^2$ présenté ci-dessus s'applique alors mot pour mot.

Comment retenir, lors du test d'indépendance du $\chi^2,$ que le nombre de degrés de liberté est $(\ell-1)\times (c-1)$? Le nombre de degrés de liberté est le nombre d'entrées du tableau qu'il faut connaitre pour le remplir si on a l'information des effectifs marginaux. Par exemple, sur un tableau de contingence à $2$ lignes et $2$ colonnes, il suffit de connaitre un effectif conjoint pour déterminer les autres effectifs par différence.
Consulter aussi
Recherche alphabétique
Recherche thématique