Résumé de cours : calcul différentiel
$E$ est un $\mathbb R$-espace vectoriel normé de dimension finie $p$, $F$ est un $\mathbb R$-espace vectoriel de dimension finie $n$ et $(e_1,\dots,e_p)$ est une base de $E$. Soit $\mathcal U$ un ouvert de $E$ et $f:\mathcal U\to F$.
Soit $v\in E$ et $a\in\mathcal U$. On dit que $f$ admet une dérivée suivant le vecteur $v$ en $a$ si l'application $t\mapsto f(a+tv)$ est dérivable en $0$. Dans ce cas, on note $$D_vf(a)=\lim_{t\to 0}\frac{f(a+tv)-f(a)}{t}$$ la dérivée de $f$ en $a$ suivant le vecteur $v$.
On appelle $i$-ème dérivée partielle, $1\leq i\leq p$ de $f$ en $a$ la dérivée suivant le vecteur $e_i$ de $f$ en $a$, et on note $$\frac{\partial f}{\partial x_i}(a)=\partial_i f(a)=\lim_{t\to 0}\frac{f(a+te_i)-f(a)}t.$$
On fixe $a\in\mathcal U$.
On dit que $f$ est différentiable en $a$ s'il existe un voisinage $V$ de $0$ dans $E$ et une application linéaire $L:E\to F$ et une application $\veps: V\to F$ vérifiant $\lim_{h\to 0}\veps(h)=0$ tels que, pour tout $h\in V$, $$f(a+h)=f(a)+L(h)+\|h\|\veps(h).$$ L'application $L$, si elle existe, est unique et s'appelle la différentielle de $f$ en $a$ (ou encore application linéaire tangente). On la note $df_a$ ou $df(a).$ On dit que $f$ est différentiable sur $\mathcal U$ si elle est différentiable en tout point de $\mathcal U.$
Remarque : On note souvent $o(h)$ pour désigner $\|h\|\veps(h).$
Si $f$ est différentiable en $a$, et si on écrit $f=(f_1,\dots,f_n)$, alors on appelle matrice jacobienne de $f$ en $a$ la matrice $$J_a f=\left( \frac{\partial f_i}{\partial x_j}(a)\right)_{1\leq i\leq n,\ 1\leq j\leq p}.$$ Lorsque $n=p$, le déterminant de la matrice jacobienne s'appelle déterminant jacobien.
Exemples :
- Si $f:E\to F$ est une application linéaire, elle est différentiable en tout point de $E$ et sa différentielle est constante égale à $f$.
- Si $f:\mathcal U\to F$ est une application constante, elle est différentiable en point de $\mathcal U$ et sa différentielle est l'application identiquement nulle.
Dans cette partie, $G$ et $H$ désignent des espaces vectoriels de dimension finie.
Sur les matrices jacobiennes, l'égalité précédente se traduit par un produit de matrices : $$J_a (g\circ f)=J_{f(a)}g\times J_a f.$$
En particulier, si $f$ est différentiable sur $\mathcal U$ et si $x_1,\dots,x_p:I\to \mathbb R$ sont dérivables sur $I$ et vérifient $(x_1(t),\dots,x_p(t))\in \mathcal U$ pour tout $t\in I$, la fonction $F(t)=f(x_1(t),\dots,x_p(t))$ est dérivable sur $I$ et vérifie $$F'(t)=\sum_{i=1}^p x_i'(t)\frac{\partial f}{\partial x_i}(x_1(t),\dots,x_p(t)).$$ Plus généralement, si $f$ est différentiable sur $\mathcal U,$ si $x_1,\dots,x_p:\mathcal V\to\mathbb R$ sont différentiables sur $\mathcal V$ et vérifient $(x_1(t_1,\dots,t_m),\dots,x_p(t_1,\dots,t_m))\in\mathcal U$ pour tout $(t_1,\dots,t_m)\in \mathcal V,$ alors la fonction $$F(t_1,\dots,t_m)=f(x_1(t_1,\dots,t_m),\dots,x_p(t_1,\dots,t_m))$$ est différentiable sur $\mathcal U$ et ses dérivées partielles vérifient $$\frac{\partial F}{\partial t_i}(t_1,\dots,t_m)=\sum_{j=1}^p \frac{\partial x_j}{\partial t_i}(t_1,\dots,t_m)\times \frac{\partial f}{\partial x_j}(x_1(t),\dots,x_m(t))$$ où on a noté $t=(t_1,\dots,t_m)$.
Si on écrit $\gamma=(\gamma_1,\dots,\gamma_p),$ alors la relation précédente s'écrit $$(f\circ\gamma)'(t)=\sum_{k=1}^p \gamma_k'(t)\frac{\partial f}{\partial x_k}(\gamma(t)).$$
On dit que $f$ est de classe $C^1$ sur $\mathcal U$ si $f$ est différentiable sur $\mathcal U$ et si l'application $\mathcal U\to\mathcal L(E,F),\ a\in \mathcal U\mapsto df(a) $ est continue.
Opérations sur les fonctions de classe $C^1$ :
- toute combinaison linéaire de deux fonctions de classe $C^1$ est de classe $C^1$.
- la composée de deux fonctions de classe $C^1$ est de classe $C^1$.
- si $B$ est une application bilinéaire et $f,g$ sont deux fonctions de classe $C^1$, alors $B(f,g)$ est de classe $C^1.$
Pour $k\geq 2$, on définit par récurrence les dérivées partielles d'ordre $k$ de $f$ comme les dérivées partielles des dérivées partielles d'ordre $k-1$ de $f$. Par exemple, les dérivées partielles d'ordre $2$ sont les fonctions $$\frac{\partial}{\partial x_i}\left(\frac{\partial f}{\partial x_j}\right)$$ avec $1\leq i,j\leq p$. On la note $\frac{\partial^2 f}{\partial x_i\partial x_j}$ ou encore $\partial_i\partial_j f.$ Plus généralement, pour tout $k$-uplet $(i_1,\dots,i_k)$ de $\{1,\dots,p\}^k$, $$\frac{\partial^k f}{\partial x_{i_1}\dots \partial x_{i_k}}=\frac{\partial}{\partial x_{i_1}} \left(\frac{\partial }{\partial x_{i_2}}\left(\cdots \left(\frac{\partial f}{\partial x_{i_k}}\right)\right)\right).$$
On dit que $f:U\to F$ est de classe $C^k$ sur $\mathcal U$ avec $k\geq 1$ si elle admet sur $\mathcal U$ toutes les dérivées partielles possibles jusqu'à l'ordre $k$ et si ces dérivées partielles sont continues sur $\mathcal U$.
Plus généralement, si $f$ est de classe $C^k$ sur un ouvert $\mathcal U$, on peut calculer ses dérivées partielles dans n'importe quel ordre.
Opérations sur les fonctions de classe $C^k$ :
- toute combinaison linéaire de deux fonctions de classe $C^k$ est de classe $C^k$.
- la composée de deux fonctions de classe $C^k$ est de classe $C^k$.
- si $B$ est une application bilinéaire et $f,g$ sont deux fonctions de classe $C^k$, alors $B(f,g)$ est de classe $C^k.$
Dans cette partie, $E$ est un espace euclidien et $f$ est à valeurs dans $\mathbb R$. On rappelle que, pour tout forme linéaire $\varphi\in E^*$, il existe un unique $u\in E$ tel que, pour tout $x\in E,$ $\varphi(x)=\langle u,x\rangle.$
Si $E$ est muni d'une base orthonormée $(e_1,\dots,e_p),$ alors le vecteur gradient s'écrit $$\nabla f(a)=\sum_{k=1}^p \frac{\partial f}{\partial x_k}(a)e_k.$$
Soit $X$ une partie de $E$, $x$ un point de $X$ et $v$ un vecteur de $E$. On dit que $v$ est tangent à $X$ en $x$ s'il existe $\veps>0$ et un arc $\gamma:]-\veps,\veps[\to X$ dérivable en $0$ et tel que $\gamma(0)=x,\ \gamma'(0)=v$. On notera $T_x X$ l'ensemble des vecteurs tangents à $X.$
En particulier, si $E$ est muni d'une structure euclidienne, $T_x X$ est le plan orthogonal à $\nabla g(x)$ : $$T_x X=\{y\in E:\ \langle y-x,\nabla g(x)\rangle=0\}.$$
Si $X$ est une partie de $E,$ $x$ un point de $X,$ on appelle espace tangent à $X$ en $x$ la partie $x+T_x X.$
On dit que $f:\mathcal U\to\mathbb R$ admet un minimum global en $a\in \mathcal U$ si, pour tout $x\in \mathcal U$, $f(x)\geq f(a)$. On dit que $f$ admet un minimum local en $a$ s'il existe $r>0$ tel que, pour tout $x\in \mathcal U\cap B(a,r)$, on a $f(x)\geq f(a)$. Ce minimum local est strict s'il existe $r>0$ tel que, pour tout $x\in\mathcal U\cap B(a,r)$, $x\neq a$, on a $f(x)>f(a).$ On définit de la même façon maximum global, maximum local. Un extrémum est un maximum ou un minimum.
Si $f:\mathcal U\to\mathbb R$ est différentiable en $a\in\mathcal U$, on dit que $a$ est un point critique de $f$ si $df_a=0$.
On dispose aussi de résultats permettant d'étudier les extrema d'une restriction de $f$ à une partie $X$ de $\mathcal U.$
Le réel $\lambda$ s'appelle un multiplicateur de Lagrange associé à la contrainte $g(x)=0$.
Si $E$ est un espace euclidien, la condition nécessaire du théorème précédent exprime que $\nabla f(x)$ et $\nabla g(x)$ sont colinéaires. En particulier, $\nabla f(x)$ appartient à $(T_x X)^\perp$.
Si $f:\mathcal U\subset\mathbb R^p\to\mathbb R$ est de classe $\mathcal C^2$ et si $a\in \mathcal U$, on appelle matrice hessienne de $f$ en $a,$ et on note $H_f(a),$ la matrice symétrique d'ordre $p$ $$\left(\frac{\partial^2 f}{\partial x_i\partial x_j}(a)\right)_{1\leq i,j\leq p}.$$ La formule de Taylor-Young peut alors se réécrire $$f(a+h)=f(a)+\langle \nabla f(x),h\rangle+\frac 12\langle H_f(x)\cdot h,h+o(\|h\|^2)$$ ou encore $$f(a+h)=f(a)+ \nabla f(x)^Th+\frac 12 h^T H_f(x) h,h\rangle+o(\|h\|^2).$$
La condition peut encore se reformuler en disant que toutes les valeurs propres de $H_f(a)$ sont positives ou nulles. Si $f$ admet un maximum local en $a$, alors $H_f(a)$ est une matrice symétrique négative, c'est-à-dire que toutes ses valeurs propres sont négatives ou nulles.
La condition peut encore se reformuler en disant que toutes les valeurs propres de $H_f(a)$ sont strictement positives. Si $a$ est un point critique de $f$ et si $H_f(a)$ est définie négative (c'est-à-dire que toutes ses valeurs propres sont strictement négatives), alors $f$ admet un maximum local strict en $a.$
- si $rt-s^2>0$ et $r>0$, $f$ admet un minimum local en $a$;
- si $rt-s^2>0$ et $r<0$, $f$ admet un maximum local en $a$;
- si $rt-s^2<0$, $f$ n'admet pas d'extremum en $a$;
- si $rt-s^2=0$, on ne peut pas conclure.
- la restriction $f_{|V}$ de $f$ à $V$ est une bijection de $V$ sur $W$;
- l'application réciproque $g:W\to V$ est de classe $C^1$ et pour tout $x\in V$, $dg_{f(x)}=(df_x)^{-1}$.
Par exemple, lorsque $n=1$, ceci signifie que si on a une fonction $f:I\to \mathbb R$ de classe $C^1$ avec $f'(a)\neq 0$, il existe un petit intervalle $J$ autour de $a$ où $f$ réalise une bijection de $J$ sur $K=f(J)$. De plus, $f^{-1}$ est de classe $C^1$ sur $K$ et $(f^{-1})'(f(x))=\frac 1{f'(x)}$ pour tout $x\in J$.
- pour tout $x\in U$, $df_x$ est inversible;
- $V=f(U)$ est ouvert et $f$ est un $C^k$-difféomorphisme de $U$ sur $V$.
Le théorème des fonctions implicites peut être compris comme un outil qui permet d'exprimer localement des courbes ayant une équation implicite $f(x,y)=0$ par des graphes du type $y=g(x)$. On peut par exemple penser au cercle unité, d'équation $x^2+y^2-1=0$, qui s'exprime localement dans le quart de plan $y=\sqrt{1-x^2}$.
Si $f$ est défini sur un ouvert de $\mathbb R^2$, le théorème des fonctions implicites a l'expression plus simple suivante :