Intervalle de confiance
Lorsqu'on réalise un sondage, on ne tombe jamais sur le résultat exact de l'élection. Mais on aimerait savoir à quel point l'estimation obtenue sera conforme à la réalité. Par exemple, un institut de sondage interroge, avant le second tour d'une élection présidentielle, $n$ électeurs. Parmi eux, 53% déclarent qu'ils vont voter pour le candidat A. Peut-il garantir pour autant la victoire du candidat A avec un risque d'erreur inférieur ou égal à 5%? C'est la problématique des intervalles de fluctuation. Bien sûr, plus la taille de l'échantillon $n$ est grande meilleure sera la précision.
Il existe des formules pour donner des intervalles de confiance qui sont basées sur un résultat de probabilité difficile, le théorème limite central.
- l'intervalle $\left[f-1,96\frac{\sqrt{f(1-f)}}{\sqrt n},f+1,96\frac{\sqrt{f(1-f)}}{\sqrt n}\right]$ est un intervalle de confiance au niveau 95% de la proportion $p$.
- l'intervalle $\left[f-2,58\frac{\sqrt{f(1-f)}}{\sqrt n},f+2,58\frac{\sqrt{f(1-f)}}{\sqrt n}\right]$ est un intervalle de confiance au niveau 99% de la proportion $p$.
Reprenons alors le sondage du début de l'article et écrivons suivant la taille de l'échantillon $n$ la valeur de l'intervalle de confiance à un niveau de confiance valant 95%.
n=100 : | [43,2;62,8] |
n=1000 : | [49,9; 56,1] | n=10000 : | [52;54] |
La première ligne du tableau signifie qu'au terme du sondage, on peut affirmer avec un risque d'erreur inférieur ou égal à 5% que le candidat A fera entre 43,2% et 63,8% des voix. De quoi relativiser les résultats des divers sondages où des résultats précis sont assénés!
Grâce au programme suivant, la BibM@th vous propose de retrouver les intervalles de confiance d'un sondage. Vous n'avez qu'à rentrer le nombre de gens interrogés et le résultat du sondage.
Le même problème se pose plus généralement lorsqu'on estime la valeur d'un paramètre $\theta$ d'une loi de probabilité à partir d'un échantillon, on ne peut pas garantir de trouver la valeur exacte de $\theta$. En revanche, il est souhaitable de pouvoir dire à partir de l'estimation que la valeur de $\theta$ est dans l'intervalle $[a,b]$ avec un risque d'erreur inférieur ou égal à p%. On dit alors que $[a,b]$ est un intervalle de confiance du paramètre $\theta$ avec un niveau de risque de $p\%$ (ou un niveau de confiance de $(100-p)\%$).
Prenons l'exemple du calcul d'un intervalle de confiance pour la moyenne d'une loi normale. On suppose qu'une variable aléatoire $X$ suit une loi normale d'espérance $m$. On a observé un échantillon $x_1,\dots,x_n$ de réalisations de cette variable aléatoire. On calcule $$\bar x=\frac 1n\sum_{i=1}^n x_i$$ la moyenne de l'échantillon, puis l'écart-type non biaisé $$s=\sqrt{\frac 1{n-1}\sum_{i=1}^n (x_i-\bar x)^2}.$$
Soit $\alpha$ dans $]0,1[$ le niveau de confiance que l'on souhaite. Soit $\phi$ la fonction de répartition de la loi normale $\mathcal N(0,1)$ et $t_\alpha$ tel que $\phi(t_\alpha)=\frac{1+\alpha}2.$ Alors un intervalle de confiance de confiance pour $m$ avec un niveau de confiance $\alpha$ est donné par $$I_C=\left[\bar x-t_\alpha\frac{s}{\sqrt n};\bar x+t_\alpha\frac{s}{\sqrt n}\right].$$ La valeur de $t_\alpha$ telle que $\phi(t_\alpha)=\frac{1+\alpha}2$ se lit dans les tables de la loi normale.