$$\newcommand{\mtn}{\mathbb{N}}\newcommand{\mtns}{\mathbb{N}^*}\newcommand{\mtz}{\mathbb{Z}}\newcommand{\mtr}{\mathbb{R}}\newcommand{\mtk}{\mathbb{K}}\newcommand{\mtq}{\mathbb{Q}}\newcommand{\mtc}{\mathbb{C}}\newcommand{\mch}{\mathcal{H}}\newcommand{\mcp}{\mathcal{P}}\newcommand{\mcb}{\mathcal{B}}\newcommand{\mcl}{\mathcal{L}} \newcommand{\mcm}{\mathcal{M}}\newcommand{\mcc}{\mathcal{C}} \newcommand{\mcmn}{\mathcal{M}}\newcommand{\mcmnr}{\mathcal{M}_n(\mtr)} \newcommand{\mcmnk}{\mathcal{M}_n(\mtk)}\newcommand{\mcsn}{\mathcal{S}_n} \newcommand{\mcs}{\mathcal{S}}\newcommand{\mcd}{\mathcal{D}} \newcommand{\mcsns}{\mathcal{S}_n^{++}}\newcommand{\glnk}{GL_n(\mtk)} \newcommand{\mnr}{\mathcal{M}_n(\mtr)}\DeclareMathOperator{\ch}{ch} \DeclareMathOperator{\sh}{sh}\DeclareMathOperator{\th}{th} \DeclareMathOperator{\vect}{vect}\DeclareMathOperator{\card}{card} \DeclareMathOperator{\comat}{comat}\DeclareMathOperator{\imv}{Im} \DeclareMathOperator{\rang}{rg}\DeclareMathOperator{\Fr}{Fr} \DeclareMathOperator{\diam}{diam}\DeclareMathOperator{\supp}{supp} \newcommand{\veps}{\varepsilon}\newcommand{\mcu}{\mathcal{U}} \newcommand{\mcun}{\mcu_n}\newcommand{\dis}{\displaystyle} \newcommand{\croouv}{[\![}\newcommand{\crofer}{]\!]} \newcommand{\rab}{\mathcal{R}(a,b)}\newcommand{\pss}[2]{\langle #1,#2\rangle} $$
Bibm@th

Résumé de cours : variables aléatoires discrètes

Dans ce cours, $(\Omega,\mathcal T,P)$ désigne un espace probabilisé et $E$ un ensemble.

Variables aléatoires discrètes

Soit $X:\Omega\to E$ une application. On dit que $X$ est une variable aléatoire discrète si :

  • $X(\Omega)$ est fini ou dénombrable 
  • pour tout $x\in X(\Omega)$, $X^{-1}(\{x\})\in \mathcal T$.

Lorsque $E=\mathbb R,$ la variable aléatoire $X$ est dite réelle. Elle est dite finie si $X(\Omega)$ est finie.

Proposition : Soit $X$ une variable aléatoire discrète sur $(\Omega,\mathcal T)$ à valeurs dans $E.$ Alors pour toute partie $A$ de $E,$ $X^{-1}(A)\in\mathcal T.$

Notations :

  • L'événément $X^{-1}(A)$ est aussi noté $\{X\in A\}$ ou $(X\in A).$
  • En particulier, pour tout $x\in E,$ l'événement $X^{-1}(x)$ est noté $\{X=x\}$ ou $(X=x).$
  • Si $X$ est à valeurs réelles, pour tout $x\in \mathbb R,$ l'événement $X^{-1}([x,+\infty[)$ est noté $(X\leq x)$ ou $\{X\leq x\}$. On utilise des notations similaires pour les autres types d'intervalles non bornés de $\mathbb R.$
Théorème : Soit $X$ une variable aléatoire discrète sur $(\Omega,\mathcal T,P)$. Alors l'application \begin{eqnarray*} P_X:\mathcal P(X(\Omega))&\to&[0,1]\\ A&\mapsto&P(X\in A) \end{eqnarray*} est une probabilité sur $(X(\Omega),\mathcal P(X(\Omega))$ qu'on appelle loi de $X$.

Si $X$ et $Y$ sont deux variables aléatoires discrètes telles que $P_X=P_Y,$ on note $X\sim Y.$ Cette notation ne suppose pas que $X$ et $Y$ sont définies sur le même espace probabilisé.

Proposition : La loi d'une variable aléatoire discrète $X$ est déterminée de manière unique par la distribution de probabilités discrètes $(P(X=x))_{x\in X(\Omega)}$. Plus précisément, pour tout $A\subset X(\Omega),$ on a $$P_X(A)=\sum_{x\in A}P(X=x).$$

Ainsi, lorsqu'on demande de déterminer la loi d'une variable aléatoire $X,$ on demande de déterminer $P(X=x)$ pour tout $x\in X(\Omega).$

Théorème : Si $X$ est une variable aléatoire discrète sur $(\Omega,\mathcal T,P)$ et $f$ est une application définie sur un ensemble contenant $X(\Omega),$ alors $f\circ X$ est une variable aléatoire discrète, notée $f(X).$ La loi de $f(X)$ est donnée par : $$\forall y\in f(X)(\Omega),\ P(f(X)=y)=\sum_{x\in f^{-1}(\{y\})}P(X=x).$$ En particulier, si $X\sim Y,$ alors $f(X)\sim f(Y).$

Soit $X$ une variable aléatoire discrète sur $(\Omega,\mathcal T,P)$ et soit $B\in \mathcal T$ tel que $P(B)>0.$ On appelle loi conditionnelle de $X$ sachant $B$ l'application \begin{eqnarray*} \mathcal P(X(\Omega))&\to&[0,1]\\ A&\mapsto&P_B(X\in A)=P(X\in A|B). \end{eqnarray*} Elle est donc déterminée par la donnée, pour tout $x\in X(\Omega),$ de $$P_A(X=x)=P(X=x|A).$$ Le plus souvent, $A$ sera un événement de la forme $(Y=y)$ où $Y$ est une autre variable aléatoire définie sur le même espace probabilisé.

Loi discrètes usuelles

On dit qu'une variable aléatoire finie $X$ suit une loi de Bernoulli de paramètre $p\in [0,1]$ lorsque $X$ est à valeurs dans $\{0,1\}$ et que $$P(X=1)=p\textrm{ et }P(X=0)=1-p.$$

On dit qu'une variable aléatoire finie $X$ suit une loi binomiale de paramètres $n\in\mathbb N^*$ et $p\in [0,1]$, ce que l'on note $X\sim \mathcal B( n,p)$, lorsque $X$ est à valeurs dans $\{0,\dots,n\}$ et que, pour tout $k\in\{0,\dots,n\}$, $$P(X=k)=\binom nk p^k(1-p)^{n-k}.$$

Soit $p\in ]0,1[$. On dit qu'une variable aléatoire discrète $X$ suit une loi géométrique de paramètre $p,$ ce que l'on note $X\sim \mathcal G(p),$ si elle est à valeurs dans $\mathbb N^*$ et si, pour tout $n\geq 1$, $$P(X=n)=p(1-p)^{n-1}.$$

Exemple : on considère un jeu de pile ou face infini avec des lancers indépendants et la probabilité d'obtenir pile à chaque lancer égale à $p\in]0,1[.$ On note $T$ le nombre d'essais nécessaires avant d'obtenir un pile. Alors $T$ est à valeurs dans $\mathbb N^*\cup\{+\infty\}$. De plus, $P(T=+\infty)=0$ et $P(T=n)=p(1-p)^{n-1}$ pour tout $n\in\mathbb N^*.$ Ainsi, $T\sim\mathcal G(p).$

Soit $\lambda>0$. On dit qu'une variable aléatoire discrète $X$ suit une loi de Poisson de paramètre $\lambda,$ ce que l'on note $X\sim \mathcal P(\lambda),$ si elle est à valeurs dans $\mathbb N$ et si, pour tout $n\in \mathbb N$, $$P(X=n)=\frac{e^{-\lambda}\lambda^n}{n!}.$$

Proposition (approximation d'une loi binomiale par une loi de Poisson) : Soit $(X_n)$ une suite de variables aléatoires discrètes telles que, pour tout $n\in\mathbb N^*,$ $X_n\sim \mathcal B(n,p_n).$ On suppose que la suite $(np_n)$ converge vers $\lambda>0.$ Alors, pour tout $k\in\mathbb N,$ $$\lim_{n\to+\infty}P(X_n=k)=\frac{\lambda^k}{k!}e^{-\lambda}.$$

Ainsi, si la variable aléatoire $X$ suit une loi binomiale $\mathcal B(n,p)$ avec $n$ grand et $p$ petit, elle suit approximativement une loi de Poisson de paramètre $\lambda=np.$ On dit que la loi de Poisson est la loi des événements rares.

Couple de variables aléatoires - indépendance

Si $X$ et $Y$ sont deux variables aléatoires discrètes sur un même espace probabilisé $(\Omega,\mathcal T,P)$, la variable aléatoire $(X,Y):\omega\in\Omega\mapsto (X(\omega),Y(\omega))$ est appelée couple de variables aléatoires discrètes. C'est également une variable aléatoire discrète sur $(\Omega,\mathcal T,P).$ La loi conjointe de $X$ et $Y$ est la loi du couple $(X,Y).$ Autrement dit, la loi conjointe est la donnée de toutes les valeurs de $P(X=x,Y=y)$ pour $(x,y)\in X(\Omega)\times Y(\Omega),$ où on a noté $P(X=x,Y=y)$ pour $P((X,Y)=(x,y)).$ Les lois de $X$ et de $Y$ sont appelées les lois marginales du couple $(X,Y).$

Le résultat suivant indique qu'il est toujours possible de retrouver les lois marginales connaissant la loi conjointe. En revanche, pour déterminer la loi conjointe de $(X,Y)$ à partir des lois marginales, il faut des informations supplémentaires sur la dépendance entre $X$ et $Y$.

Proposition : Soit $(X,Y)$ un couple de variables aléatoires discrètes. Alors, pour tout $x\in X(\Omega),$ $$P(X=x)=\sum_{y\in Y(\Omega)}P(X=x,Y=y).$$

Ces définitions se généralisent à des $n$-uplets de variables aléatoires discrètes. Si $X_1,\dots,X_n$ sont $n$ variables aléatoires discrètes sur le même espace probabilisé, $(X_1,\dots,X_n)$ s'appelle un vecteur aléatoire discret.

Deux variables aléatoires discrètes $X$ et $Y$ sur $(\Omega,\mathcal T,P)$ sont dites indépendantes si, pour tout $x\in X(\Omega)$ et tout $y\in Y(\Omega)$, on a $$P(X=x,Y=y)=P(X=x)P(Y=y).$$ On note $X\perp\!\!\!\perp Y.$

Proposition : Deux variables aléatoires discrètes $X$ et $Y$ sont indépendantes si et seulement si, pour tout $A\subset X(\Omega)$ et tout $B\subset Y(\Omega)$, on a $$P(X\in A,Y\in B)=P(X\in A)P(Y\in B).$$

Soit $(X_i)_{i\in I}$ une famille de variables aléatoires. On dit que les variables aléatoires $(X_i)_{i\in I}$ sont mutuellement indépendantes lorsque, pour toute partie finie $J=\{i_1,\dots,i_p\}\subset I$, pour tout $(x_{i_1},\dots,x_{i_p})\in X_{i_1}(\Omega)\times\dots\times X_{i_p}(\Omega)$, on a $$P(X_{i_1}=x_{i_1},\dots,X_{i_p}=x_{i_p})=P(X_{i_1}=x_{i_1})\cdots P(X_{i_p}=x_{i_p}).$$

L'indépendance est préservée par un certain nombre d'opérations.

Théorème : Si $X$ et $Y$ sont deux variables aléatoires indépendantes définies sur le même espace probabilisé $(\Omega,\mathcal T,P)$, et si $f$ et $g$ sont deux applications définies respectivement sur $X(\Omega)$ et $Y(\Omega),$ alors $f(X)$ et $g(Y)$ sont indépendantes.

Ce résultat peut se généraliser à une famille quelconque de variables aléatoires : si $(X_i)_{i\in I}$ est une famille de variables aléatoires mutuellement indépendantes et si $(f_i)_{i\in I}$ est une famille d'applications telle que, pour tout $i\in I,$ $f_i$ est définie sur $X_i(\Omega),$ alors $(f_i(X_i))_{i\in I}$ est une famille de variables mutuellement indépendantes.

Lemme des coalitions : Si $X_1,X_2,\dots,X_n$ sont des variables aléatoires mutuellement indépendantes, alors pour tout $m$ compris entre 1 et $n-1$, et pour toutes fonctions $f$ et $g$, les variables $f(X_1,\cdots,X_m)$ et $g(X_{m+1},\cdots,X_n)$ sont indépendantes.

De la même façon, ce résultat se généralise à un nombre quelconque de fonctions : si $(X_i)_{i\in I}$ est une famille de variables aléatoires indépendantes, si $(I_j)_{j\in I}$ est une partition de $I$, et si pour tout $j\in J,$ $f_j$ est une fonction définie sur $\prod_{i\in I_j}X_i(\Omega)$, alors $(f_j((X_i)_{i\in I_j}))_{j\in J}$ est une famille de variables aléatoires mutuellement indépendantes.

Espérance

Dans cette partie, les variables aléatoires discrètes sont définies sur $(\Omega,\mathcal T,P).$

Soit $X$ une variable aléatoire discrète à valeurs dans $\mathbb R_+\cup\{+\infty\}.$ L'espérance de $X,$ notée $E(X)$, est la somme dans $[0,+\infty]$ de la famille $(xP(X=x))_{x\in X(\Omega)}$ : $$E(X)=\sum_{x\in X(\Omega)}xP(X=x).$$

Théorème (formule d'antirépartition) : Soit $X$ une variable aléatoire à valeurs dans $\mathbb N\cup\{+\infty\}.$ Alors $$E(X)=\sum_{n=1}^{+\infty}P(X\geq n).$$

Soit $X$ une variable aléatoire discrète à valeurs dans $\mathbb C$. On dit que $X$ est d'espérance finie si la famille $(xP(X=x))_{x\in X(\Omega)}$ est sommable. Dans ce cas, l'espérance de $X$, notée $E(X),$ est la somme de cette famille : $$E(X)=\sum_{x\in X(\Omega)}xP(X=x).$$ En particulier, l'espérance de $X$ ne dépend que de la loi de $X.$

On note $L^1(\Omega,\mathcal T,P)$ ou plus simplement $L^1$ l'ensemble des variables aléatoires discrètes sur $(\Omega,\mathcal T,P)$ d'espérance finie. On dit que $X\in L^1$ est centrée si $E(X)=0.$

Exemples :

  • Si $X\sim \mathcal G(p)$ avec $p\in ]0,1[,$ $E(X)=\frac 1p.$
  • Si $X\sim \mathcal P(\lambda)$ avec $\lambda>0,$ alors $E(X)=\lambda.$
Formule de transfert : Soit $X$ une variable aléatoire discrète et $f:X(\Omega)\to\mathbb C.$ Alors $f(X)$ est d'espérance finie si et seulement si la famille $(f(x)P(X=x))_{x\in X(\Omega)}$ est sommable et dans ce cas $$E(f(X))=\sum_{x\in X(\Omega)}f(x)P(X=x).$$

En particulier, pour déterminer l'espérance de $f(X),$ il n'est pas nécessaire de connaître la loi de $f(X),$ on peut se contenter de connaître la loi de $X.$

Proposition : Soit $X$ et $Y$ deux variables aléatoires discrètes à valeurs dans $\mathbb C.$
  • Linéarité : si $X$ et $Y$ sont d'espérance finie et $\lambda\in\mathbb C,$ alors $\lambda X+Y$ est d'espérance finie et $E(\lambda X+Y)=\lambda E(X)+E(Y)$.
  • Positivité : si $X\geq 0,$ alors $E(X)\geq 0$.
  • Croissance : si $X\leq Y$ et $X$ et $Y$ sont d'espérance finie, alors $E(X)\leq E(Y).$
  • Inégalité triangulaire : $X$ est d'espérance finie si et seulement si $|X|$ est d'espérance finie, et alors $|E(X)|\leq E(|X|).$

En particulier, $L^1(\Omega,\mathcal T,P)$ est un espace vectoriel.

Théorème (espérance du produit de deux variables aléatoires indépendantes) : Si $X$ et $Y$ sont deux variables aléatoires indépendantes admettant une espérance finie, alors $XY$ admet une espérance finie et $E(XY)=E(X)E(Y)$.

Cette propriété se généralise au produit d'un nombre quelconque de variables aléatoires indépendantes : si $X_1,\dots,X_n$ sont des variables aléatoires mutuellement indépendantes (à valeurs dans $\mathbb C$) admettant une espérance finie, alors $X_1\cdots X_n$ est d'espérance finie et $$E(X_1\cdots X_n)=E(X_1)\cdots E(X_n).$$

Variance, covariance, écart-type

On note $L^2(\Omega,\mathcal T,P)$ ou plus simplement $L^2$ l'ensemble des variables aléatoires discrètes sur $(\Omega,\mathcal T,P)$ à valeurs dans $\mathbb R$ telles que $X^2$ est d'espérance finie.

Inégalité de Cauchy-Schwarz : Si $X$ et $Y$ sont dans $L^2$, alors $XY\in L^1$ et $$(E(XY))^2\leq E(X^2)E(Y^2).$$
Corollaire : Si $X\in L^2,$ alors $X\in L^1.$
Corollaire : $L^2(\Omega,\mathcal T,P)$ est un espace vectoriel.

Soit $X\in L^2.$ On appelle variance de $X$ le réel $$V(X)=E\big( (X-E(X))^2\big)=E(X^2)-\big(E(X)\big)^2$$ et écart-type de $X$ le réel $$\sigma(X)=\sqrt{V(X)}.$$

Proposition : Soit $X\in L^2$ et $a,b\in\mathbb C^2.$ Alors
  • $V(aX+b)=a^2V(X)$.
  • $V(X)=E(X^2)-E(X)^2$ (formule de Koenig-Huyghens).

Une variable aléatoire $X\in L^2$ est dite réduite si $V(X)=1.$ Si $X\in L^2$ est telle que $V(X)\neq 0,$ alors la variable aléatoire $\displaystyle \frac{X-E(X)}{\sigma(X)}$ est centrée et réduite.

Exemples :

  • Si $X\sim \mathcal G(p)$ avec $p\in ]0,1[,$ $V(X)=\frac {1-p}{p^2}.$
  • Si $X\sim \mathcal P(\lambda)$ avec $\lambda>0,$ alors $V(X)=\lambda.$

Si $X$ et $Y$ sont dans $L^2,$ on appelle covariance de $X$ et de $Y$ le réel $$\textrm{Cov}(X,Y)=E\big((X-E(X))(Y-E(Y))\big)=E(XY)-E(X)E(Y).$$ En particulier, si $X$ et $Y$ sont indépendantes, on a $\textrm{Cov}(X,Y)=0.$

Théorème (variance d'une somme de variables aléatoires) : Soit $X_1,\dots,X_n$ des variables aléatoires appartenant à $L^2.$ Alors $$V\left(\sum_{i=1}^n X_i\right)=\sum_{i=1}^n V(X_i)+2\sum_{1\leq i<j\leq n}\textrm{Cov}(X_i,X_j).$$ En particulier, si les $X_i$ sont deux à deux indépendantes, alors $$V\left(\sum_{i=1}^n X_i\right)=\sum_{i=1}^n V(X_i).$$
Estimation
Inégalité de Markov : Soit $X\in L^1$ et soit $t>0$. Alors $$P(|X|\geq t)\leq\frac{E(|X|)}{t}.$$
Inégalité de Bienaymé-Tchebychev : Soit $X\in L^2$. Alors, pour tout $\veps>0$, $$P(|X-E(X)|\geq \veps)\leq \frac{V(X)}{\veps^2}.$$
Loi faible des grands nombres : Soit $(X_n)_{n\geq 1}$ une suite de variables aléatoires discrètes réelles définies sur le même espace probabilisé. On suppose que ces variables aléatoires sont deux à deux indépendantes, de même loi, et admettent une variance finie. Alors, si on note $m=E(X_1)$ et si on pose $S_n=X_1+\cdots+X_n$, pour tout $\veps>0,$ on a $$P\left(\left|\frac{S_n}n-m\right|\geq\veps\right)\xrightarrow{n\to+\infty}0.$$
Fonction génératrice

Soit $X$ une variable aléatoire à valeurs dans $\mathbb N$. On appelle fonction génératrice de $X$ la série entière suivante : $$G_X(t)=\sum_{n=0}^{+\infty}P(X=n)t^n.$$ Le rayon de convergence de cette série entière est supérieur ou égal à $1$. $G_X$ définit donc une fonction de classe $\mathcal C^\infty$ sur $]-1,1[$. Elle est en fait continue sur l'intervalle fermé $[-1,1]$.

Exemples :

  • Si $X$ suit une loi de Bernoulli de paramètre $p$, alors $$G_X(t)=(1-p)+pt.$$
  • Si $X$ suit une loi binomiale de paramètres $n,p$, alors $$G_X(t)=\big((1-p)+pt)^n.$$
  • Si $X$ suit une loi géométrique de paramètre $p\in ]0,1[$, alors $$G_X(t)=\frac{pt}{1-(1-p)t}.$$
  • Si $X$ suit une loi de Poisson de paramètre $\lambda>0$, alors $$G_X(t)=e^{-\lambda}e^{\lambda t}.$$

La fonction génératrice caractérise la loi d'une variable aléatoire :

Théorème : Soit $X$ une variable aléatoire à valeurs dans $\mathbb N.$ Alors, pour tout $n\in\mathbb N,$ $$P(X=n)=\frac{G_X^{(n)}(0)}{n!}.$$

La fonction génératrice permet également de retrouver la loi de la somme de deux variables aléatoires indépendantes :

Théorème : Si $X$ et $Y$ sont deux variables aléatoires à valeurs dans $\mathbb N$ indépendantes, alors, pour tout $t\in ]-1,1[$, $G_{X+Y}(t)=G_X(t)G_Y(t)$.

La fonction génératrice permet de retrouver l'espérance et la variance d'une variable aléatoire :

Théorème : Soit $X$ une variable aléatoire à valeurs dans $\mathbb N$. Alors
  • $X$ admet une espérance finie si et seulement si $G_X$ est dérivable en $1$. Dans ce cas, $G_X'(1)=E(X)$;
  • Si $G_X$ est deux fois dérivable en $1$, alors $X\in L^2$ et $V(X)=G_X''(1)+G_X'(1)-\big(G_X'(1)\big)^2.$