$$\newcommand{\mtn}{\mathbb{N}}\newcommand{\mtns}{\mathbb{N}^*}\newcommand{\mtz}{\mathbb{Z}}\newcommand{\mtr}{\mathbb{R}}\newcommand{\mtk}{\mathbb{K}}\newcommand{\mtq}{\mathbb{Q}}\newcommand{\mtc}{\mathbb{C}}\newcommand{\mch}{\mathcal{H}}\newcommand{\mcp}{\mathcal{P}}\newcommand{\mcb}{\mathcal{B}}\newcommand{\mcl}{\mathcal{L}} \newcommand{\mcm}{\mathcal{M}}\newcommand{\mcc}{\mathcal{C}} \newcommand{\mcmn}{\mathcal{M}}\newcommand{\mcmnr}{\mathcal{M}_n(\mtr)} \newcommand{\mcmnk}{\mathcal{M}_n(\mtk)}\newcommand{\mcsn}{\mathcal{S}_n} \newcommand{\mcs}{\mathcal{S}}\newcommand{\mcd}{\mathcal{D}} \newcommand{\mcsns}{\mathcal{S}_n^{++}}\newcommand{\glnk}{GL_n(\mtk)} \newcommand{\mnr}{\mathcal{M}_n(\mtr)}\DeclareMathOperator{\ch}{ch} \DeclareMathOperator{\sh}{sh}\DeclareMathOperator{\th}{th} \DeclareMathOperator{\vect}{vect}\DeclareMathOperator{\card}{card} \DeclareMathOperator{\comat}{comat}\DeclareMathOperator{\imv}{Im} \DeclareMathOperator{\rang}{rg}\DeclareMathOperator{\Fr}{Fr} \DeclareMathOperator{\diam}{diam}\DeclareMathOperator{\supp}{supp} \newcommand{\veps}{\varepsilon}\newcommand{\mcu}{\mathcal{U}} \newcommand{\mcun}{\mcu_n}\newcommand{\dis}{\displaystyle} \newcommand{\croouv}{[\![}\newcommand{\crofer}{]\!]} \newcommand{\rab}{\mathcal{R}(a,b)}\newcommand{\pss}[2]{\langle #1,#2\rangle} $$
Bibm@th

Exercices corrigés - Statistiques descriptives

Statistique descriptive à une variable
Exercice 1 - Ecart-moyen et écart-type [Signaler une erreur] [Ajouter à ma feuille d'exos]
Enoncé
On appelle écart-moyen de la série statistique $(x_i)_{i=1,\dots,n}$ le réel $$e=\frac {\sum_{i=1}^n |x_i-\bar x|}n.$$ Démontrer que l'écart-moyen est toujours inférieur ou égal à l'écart-type $\sigma_x$ (conseil : utiliser l'inégalité de Cauchy-Schwarz).
Corrigé
Exercice 2 - Minimisation d'écarts - d'après CAPES 2013 [Signaler une erreur] [Ajouter à ma feuille d'exos]
Enoncé
Soit $n$ un entier naturel et $(x_1,\dots,x_n)$ un $n$-uplet de réels. On souhaite trouver un réel $x$ minimisant la somme des écarts ou la somme des écarts au carré. On définit donc sur $\mathbb R$ les deux fonctions $G$ et $L$ par : \begin{eqnarray*} G(x)&=&\sum_{i=1}^n (x-x_i)^2\\ L(x)&=&\sum_{i=1}^n |x-x_i|. \end{eqnarray*}
  1. Minimisation de $G$.
    1. En écrivant $G(x)$ sous la forme d'un trinôme du second degré, démontrer que la fonction $G$ admet un minimum sur $\mathbb R$ et indiquer en quelle valeur de $x$ il est atteint.
    2. Que représente d'un point de vue statistique la valeur de $x$ trouvée à la question précédente?
  2. Minimisation de $L$. On suppose désormais que la série est ordonnée, c'est-à-dire que $x_1\leq x_2\leq \dots\leq x_n$.
    1. Représenter graphiquement la fonction $L$ dans le cas où $n=3$, $x_1=-2$, $x_2=3$, $x_3=4$.
    2. Représenter graphiquement la fonction $L$ dans le cas où $n=4$, $x_1=-2$, $x_2=3$, $x_3=4$, $x_4=7$.
    3. Démontrer que la fonction $L$ admet un minimum sur $\mathbb R$ et indiquer pour quelle(s) valeur(s) de $x$ il est atteint (on distinguera les cas $n$ pair et $n$ impair).
    4. Que représentent, d'un point de vue statistique, les valeurs de $x$ trouvées à la question précédente?
Indication
Corrigé
Exercice 3 - Sur les indicateurs de dispersion [Signaler une erreur] [Ajouter à ma feuille d'exos]
Enoncé
Soit $x_1,\ldots,x_N$ une série statistique de $N$ nombres réels (non nécessairement rangés par ordre croissant). On note $m$ la moyenne de la série et $\sigma$ son écart-type.
    1. Soit $n$ le nombre d'éléments de la série statistique compris entre $m-2\sigma$ et $m+2\sigma$. Montrer que $\sum_{k=1}^N(x_k-m)^2\ge 4(N-n)\sigma^2$.
    2. En déduire qu'au moins les trois quarts des éléments de la série statistique sont compris entre $m-2\sigma$ et $m+2\sigma$.
  1. Plus généralement, montrer que pour tout réel $t>1$, l'intervalle $[m-t\sigma,m+t\sigma]$ contient au moins une proportion $1-\frac1{t^2}$ des éléments de la série statistique.
Indication
Corrigé
Enoncé
  1. Ecrire un algorithme qui calcule la moyenne d'une série statistique. Il demandera à l'utilisateur (par l'instruction LIRE) l'effectif de cette série et ensuite chacun des éléments de cette série.
  2. Modifier l'algorithme pour qu'il calcule de plus la variance.
Indication
Corrigé
Statistique descriptive à deux variables
Exercice 5 - Sur le coefficient de corrélation linéaire [Signaler une erreur] [Ajouter à ma feuille d'exos]
Enoncé
Soit $x=(x_i)_{1\leq i\leq n}$ et $y=(y_i)_{1\leq i\leq n}$ deux séries statistiques de variance non nulle. On rappelle que le coefficient de corrélation linéaire des deux séries $x$ et $y$ est défini par $$\rho_{x,y}=\frac{\sigma_{x,y}}{\sigma_x\sigma_y}\textrm{ où }\sigma_{x,y}=\frac1n\sum_{i=1}^n (x_i-\bar x)(y_i-\bar y).$$
  1. Interpréter $\rho_{x,y}$ à l'aide du produit scalaire et de la norme de vecteurs de $\mathbb R^n$.
  2. En déduire que $\rho_{x,y}\in [-1,1]$.
  3. Démontrer que $|\rho_{x,y}|=1$ si et seulement s'il existe $a,b\in\mathbb R$ tels que, pour tout $i=1,\dots,n$, $y_i=ax_i+b$.
Indication
Corrigé
Exercice 6 - La méthode des moindres carrés [Signaler une erreur] [Ajouter à ma feuille d'exos]
Enoncé
On considère une série statistique double $\{(x_i,y_i)_{1\leq i\leq n}\}$ vue comme $n$ points de $\mathbb R^2$ et on note $M_i$ le point de coordonnées $(x_i,y_i)$. On cherche une droite de la forme $y=ax+b$ qui réalise le "meilleur ajustement" possible du nuage. La méthode des moindres carrés consiste à à dire que le meilleur ajustement est réalisé lorsque la somme des carrés des distances de $M_i$ à $H_i$ (le projeté de $M_i$ sur la droite $y=ax+b$ parallèlement à l'axe des ordonnées) est minimale. Autrement dit, on cherche à minimiser la quantité suivante : $$T(a,b)=\sum_{i=1}^n (y_i-ax_i-b)^2.$$ On va prouver dans cet exercice le résultat suivant :
Si $\sigma_x\neq 0$, il existe une unique droite d'équation $y=ax+b$ minimisant la quantité $T(a,b)$. De plus, $$a=\frac{\sigma_{x,y}}{\sigma_x^2}\textrm{ et }b=\bar y-\bar x\frac{\sigma_{x,y}}{\sigma_x^2}.$$
  1. Pourquoi impose-t-on la condition $\sigma_x\neq 0$?
  2. Méthode 1 : par un calcul direct
    1. On suppose pour commencer que $\bar x=0$ et que $\bar y=0$. Démontrer que $$T(a,b)=\sum_{i=1}^n y_i^2+a^2\sum_{i=1}^n x_i^2-2a\sum_{i=1}^n x_iy_i+nb^2.$$
    2. En déduire que $T(a,b)$ est minimum si et seulement si $a=\frac{\sigma_{x,y}}{\sigma_x^2}$ et $b=0$.
    3. Cas général : on pose $x'_i=x_i-\bar x$, $y'_i=y-\bar y$ et $U(a,b)=\sum_{i=1}^n (y'_i-ax'_i-b)^2$. Démontrer que $T(a,b)=U(a,b-\bar y+a\bar x)$.
    4. Conclure.
  3. Méthode 2 : par projection orthogonale. On munit $\mathbb R^n$ de son produit scalaire canonique.
    1. Soit $\vec y$ un vecteur de $\mathbb R^n$ et $F$ un plan vectoriel (de dimension $2$). Démontrer que $$\inf \{\|\vec y-\vec z\|;\ \vec z\in F\}=\|\vec y-p_F(\vec y)\|$$ où $p_F(\vec y)$ est le projeté orthogonal de $\vec y$ sur $F$ (conseil : utiliser le théorème de Pythagore).
    2. On note $\vec x=(x_1,\dots,x_n)$, $\vec y=(y_1,\dots,y_n)$ et $\vec u=(1,\dots,1)$. Déterminer $a$ et $b$ de sorte que $a\vec x+b\vec u$ soit le projeté orthogonal de $\vec y$ sur $\textrm{vect}(\vec x,\vec u)$.
    3. Vérifier que $T(a,b)=\|\vec y-(a\vec x+b\vec u)\|^2$.
    4. Conclure.
Indication
Corrigé
Enoncé
L'étude d'une réaction chimique en fonction du temps a donné les résultats suivants : $$\begin{array}{|c|c|c|c|c|c|} \hline \textrm{Temps t (en h)}&1&2&3&4&5\\ \hline \textrm{Concentration C (en g/L)}&6,25&6,71&7,04&7,75&8,33\\ \hline \end{array} $$ Des considérations théoriques laissent supposer que la concentration $C$ et le temps $t$ sont liés par une relation de la forme $C=\frac 1{at+b}$. Donner une estimation de la concentration après 6H.
Indication
Corrigé
Exercice 8 - Droite des moindres carrés, dans les deux sens! [Signaler une erreur] [Ajouter à ma feuille d'exos]
Enoncé
On considère une série statistique à deux variables $\{(x_i,y_i);\ 1\leq i\leq n\}$. On note $D_1$ la droite de régression de $Y$ par rapport à $X$ et $D_2$ la droite de régression de $X$ par rapport à $Y$. Démontrer que $D_1=D_2$ si et seulement si tous les points $(x_i,y_i)$ sont alignés.
Indication
Corrigé
Enoncé
Le tableau ci-dessous donne la production annuelle d'une usine de pâte à papier (en tonnes) en fonction de l'année. $$ \begin{array}{|c|c|c|c|c|c|c|c|} 2004&2005&2006&2007&2008&2009&2010&2011\\ \hline 325&351&382&432&478&538&708&930 \end{array} $$
  1. Tracer le nuage de points correspondant (sous logiciel!).
  2. Un ajustement affine vous semble-t-il adéquat?
  3. Pour chaque année, on note $p_i$ la production de la pâte à papier et $m_i=\ln(p_i)$. Tracer le nouveau nuage de points $(i,m_i)$ et calculer le coefficient de corrélation linéaire de la série double ($i$, $m_i$). Qu'en pensez-vous?
  4. Donner une équation de la droite d'ajustement par les moindres carrés de $m_i$ en $i$.
  5. Quelle production peut-on prévoir en 2014?
  6. A cette dernière question, voici la réponse de quelques élèves :
    Elève A : Je remplace 2014 dans l’équation 0,14x – 280,5 : je trouve 1,46. Puis je prends l’exponentielle : on trouve 4,3. Il doit y avoir une erreur car ce n’est pas assez.
    Elève B : Puisque $p = e^{0,143i -280,508}$, alors $p(2014)\simeq 1797$. La production est de 1797 tonnes.
    Elève C : J'utilise la touche Stats de ma calculatrice et je trouve 1233 tonnes.
    Elève D : Je sais que $x= 2014$ et $p = 77,79x -155 636,82$. Donc : $p = 77,79\times 2014 – 155 636,82 =1032,24$. La production est 1032,24 tonnes
    Analysez la production de chaque élève en mettant en évidence ses réussites et en indiquant l'origine éventuelle de ses erreurs.
Corrigé