L'espérance minimise la somme des écarts quadratiques
Soit $(x_i)_{i=1,\dots,n}$ une série statisque. Alors la fonction $G$ définie sur $\mathbb R$
par
$$G(x)=\sum_{i=1}^n (x-x_i)^2$$
admet un unique minimum atteint en $\frac{x_1+\dots+x_n}n$.
Il suffit de développer $G$ qui est un polynôme du second degré:
$$G(x)=nx^2-2\left(\sum_{i=1}^n x_i\right)x+\sum_{i=1}^n x_i^2.$$
$G$ admet un unique minimum au réel $x$ tel que $G'(x)=0$, et l'équation $G'(x)=0$
est équivalente à $x=\frac{x_1+\dots+x_n}n$.
Application du théorème de de Moivre-Laplace à la construction d'intervalles de fluctuation asymptotique
Soit $\alpha,p\in ]0,1[$ et $u_\alpha$ l'unique réel tel que $P(-u_\alpha\leq Z\leq u_\alpha)=1-\alpha$ si $Z$ est une variable aléatoire suivant une loi normale centrée réduite. Soit $(X_n)_{n\geq 1}$ une suite de variables aléatoires suivant respectivement une loi binomiale $\mathcal B(n,p)$ et notons $I_n$ l'intervalle $I_n=\left[p-u_\alpha\frac{\sqrt{p(1-p)}}{\sqrt n};p+u_\alpha\frac{\sqrt{p(1-p)}}{\sqrt n}\right].$ Alors
$$\lim_{n\to +\infty}P\left(\frac{X_n}n\in I_n\right)=1-\alpha.$$
Posons $Z_n=\frac{X_n-np}{\sqrt{p(1-p)}}$. On sait, d'après le théorème de de Moivre-Laplace que $P(-u_\alpha\leq Z_n\leq u_\alpha)$ tend vers $P(-u_\alpha\leq Z\leq u_\alpha)=1-\alpha$ où $Z$ suit une loi normale centrée réduite. Maintenant, il suffit de remarquer que
\begin{eqnarray*}
\frac{X_n}n\in I_n&\iff& p-u_\alpha\frac{\sqrt{p(1-p)}}{\sqrt n}\leq \frac{X_n}n\leq p+u_\alpha\frac{\sqrt{p(1-p)}}{\sqrt n}\\
&\iff&-u_\alpha\frac{\sqrt{p(1-p)}}{\sqrt n}\leq \frac{X_n-np}{n}\leq u_\alpha\frac{\sqrt{p(1-p)}}{\sqrt n}\\
&\iff&-u_\alpha\leq\frac{X_n-np}{\sqrt{np(1-p)}}\leq u_\alpha\\
&\iff&-u_\alpha\leq Z_n\leq u_\alpha.
\end{eqnarray*}
Comparaison des intervalles de fluctuation de seconde et de terminale
L'intervalle de fluctuation $\left[p-\frac{1}{\sqrt n};p+\frac{1}{\sqrt n}\right]$ au seuil de 95%
contient l'intervalle de fluctuation asymptotique de même seuil
$\left[p-1,96\frac{\sqrt{p(1-p)}}{\sqrt n};p+1,96\frac{\sqrt{p(1-p)}}{\sqrt n}\right]$.
Pour démontrer l'inclusion d'un intervalle dans l'autre, il suffit de démontrer que
$$p-1,96\frac{\sqrt{p(1-p)}}{\sqrt n}\geq p-\frac{1}{\sqrt n}\textrm{ et }p+1,96\frac{\sqrt{p(1-p)}}{\sqrt n}\leq p+\frac{1}{\sqrt n}.$$
Ces deux inégalités sont équivalentes à l'unique inégalité
$$1,96\sqrt{p(1-p)}\leq 1$$
qui doit être vérifiée pour tout $p\in [0,1]$. Étudions donc la fonction $p\mapsto p(1-p)$ sur l'intervalle $[0,1]$. Elle atteint son maximum en $1/2$ (c'est un simple polynôme de degré 2... on peut utiliser le résultat de seconde, mettre sous forme canonique, ou encore dériver!) et ce maximum vaut $\frac 14$. On en déduit, par croissance de la fonction racine carrée, que, pour tout $p\in[0,1]$,
$$p(1-p)\leq \frac14\implies\sqrt{p(1-p)}\leq \frac12\implies 1,96\sqrt{p(1-p)}\leq \frac{1,96}{2}\leq 1.$$
Variance et covariance
Soit $\{(x_i,y_i);\ 1\leq i\leq n\}$ une série statistique double. Alors
$$|Cov(X,Y)|\leq \sigma_X\sigma_Y.$$
Il s'agit d'une conséquence de l'inégalité de Cauchy-Schwarz. En effet, cette inégalité entraîne que
$$\left| \sum_{i=1}^n (x_i-\bar x)(y_i-\bar y)\right|\leq \left(\sum_{i=1}^n|x_i-\bar x|^2\right)^{1/2}\left(
\sum_{i=1}^n |y_i-\bar y|^2\right)^{1/2}.$$
On divise par $\frac 1n$ de chaque côté, et on trouve
$$\frac 1n\left| \sum_{i=1}^n (x_i-\bar x)(y_i-\bar y)\right|\leq\left(\frac 1n\sum_{i=1}^n|x_i-\bar x|^2\right)^{1/2}\left(
\frac 1n\sum_{i=1}^n |y_i-\bar y|^2\right)^{1/2}$$
ce qui est exactement l'inégalité demandée. Remarquons que dans le membre de droite, le $\frac 1n$ se sépare en deux $\frac 1n$ quand on le(s) rentre sous la racine carrée.
Existence et unicité de la droite des moindres carrés
Soit $\{(x_i,y_i);\ {1\leq i\leq n}\}$ une série statistique à deux variables. Pour $a,b\in\mathbb R^2$, on note
$$T(a,b)=\sum_{i=1}^n (y_i-ax_i-b)^2$$
qui représente la somme des écarts quadratiques entre le nuage de points $(x_i,y_i)$ et la droite d'équation $y=ax+b$ dans un repère orthonormé. Alors, si $\sigma_x\neq 0$, il existe une unique droite d'équation $y=ax+b$ minimisant la quantité $T(a,b)$. De plus,
$$a=\frac{Cov(x,y)}{\sigma_x^2}\textrm{ et }b=\bar y-\bar x\frac{\sigma_{x,y}}{\sigma_x^2}.$$
La démonstration est un petit peu délicate. L'idée générale est de développer $T(a,b)$ pour faire apparaitre un polynôme du second degré qui ne dépend que de $a$, et le carré d'un autre terme. Pour faire cela, il va falloir faire s'annuler certains termes, et on va introduire $\bar y$ et $\bar x$ dans la définition de $T(a,b)$ avant de développer. On écrit donc
\begin{eqnarray*}
T(a,b)&=&\sum_{i=1}^n (y_i-ax_i-b)^2\\
&=&\sum_{i=1}^n \big( (y_i-\bar y)-a(x_i-\bar x)-(b-\bar y+a\bar x)\big)^2.
\end{eqnarray*}
Pour alléger un peu l'écriture, on va poser $c=b-\bar y+a\bar x$. On a donc
\begin{eqnarray*}
T(a,b)&=&\sum_{i=1}^n (y_i-\bar y)^2+a^2\sum_{i=1}^n (x_i-\bar x)^2+c^2\\
&&-2a\sum_{i=1}^n (y_i-\bar y)(x_i-\bar x)-2c\sum_{i=1}^n (y_i-\bar y)-2ac\sum_{i=1}^n (x_i-\bar x).
\end{eqnarray*}
Maintenant, on sait que $\sum_{i=1}^n (y_i-\bar y)=0$ et que $\sum_{i=1}^n (x_i-\bar x)=0$. En utilisant de plus les notations usuelles pour la variance et la covariance, on a donc
$$\frac {T(a,b)}n=V(Y)+a^2V(X)-2aCov(X,Y)+(b-\bar y+a\bar x)^2.$$
Ainsi,
$$\frac{T(a,b)}n=P(a)+(b-\bar y+a\bar x)^2$$
où $P(a)$ est un polynôme de degré 2 en $a$. Ainsi, $T(a,b)$ est minimal si et seulement si $a$ est choisi de sorte que $P(a)$ est minimal et, une fois cette valeur de $a$ choisie, $(b-\bar y+a\bar x)=0.$ Ainsi, on a $b=\bar y-a\bar x$. De plus, $P$ étant un polynôme de degré 2 à coefficient dominant positif, il atteint son minimum exactement là où sa dérivée s'annule. L'équation $P'(a)=0$ donne $a=\frac{Cov(X,Y)}{Var(X)}$.