Probabilités pour l'Ingénieur

MDI104

matfontaine.github.io/MDI104

Mathieu FONTAINE
mathieu.fontaine@telecom-paris.fr

Septembre-Octobre 2023

Organisation du module (1/2)

Evaluation

Note de contrôle continu (CC, /6)

  • 2 CC (/20)
    • Date pour les contrôles continus : 22/09 et 13/10
    • 1h30 - une feuille A4 recto/verso de révision autorisée pendant le devoir


Note sur /40 ramenée sur 6 (30% de la note)

Examen Final (EF, /14)

  • Une feuille A4 recto/verso de révision autorisée pendant le devoir
  • Durée : 3h

EF + CC = Note finale /20 pour MDI104

Organisation du module (2/2)

Programme par tranche horaire (TH)

  • Probabilités Discrète, Théorie de la mesure (TH 1-2, Chap 1, 2.1 - 2.3)
  • Intégration: Intégrale de Lebesgue (TH 3-4, Chap. 3.1, 2.4, 3.2, 3.3.1)
  • Variables Aléatoires et Espérance (TH 5-6, Chap. 4.1, Chap. 4.2)
  • CC1 + Correction (TH 7-8, 25/09)
  • $\rightarrow$(Remplacement par Bruno Costacèque)
  • Théorème de Fubini et Indépendance (TH 9-10, Chap. 4.3)
  • Changement de Variables (TH 11, Chap. 3.3.2, 4.4)
  • $\rightarrow$(Remplacement par François Roueff)
  • Changement de Variables (TH 12, Chap. 3.3.2, 4.4)
  • Fonction Caractéristique (TH 13-14, Chap. 6)
  • Vecteurs Gaussiens (TH 15-16, Chap. 7)
  • Espérance conditionnelle (TH 17, Chap. 5)
  • CC2 (TH 18, 13/10)
  • Correction CC2 (TH19)
  • Espérance conditionnelle (TH20-21, Chap. 5)
  • Convergences de Variable aléatoire (TH 22-23)
    $\rightarrow$(Remplacement par Pascal Bianchi et Victor Priser)
  • Révisions (TH 24)
  • $\rightarrow$(Remplacement par Louis Bahrman)

Matériel et activités

Bibliographie

Activités

  • Diaporama résumant le contenu du cours (démonstration au tableau)
  • Travaux dirigés sur des exercices (à la maison ou traité directement en cours)

I - Probabilités discrète

Rappels & notations (1/2)

  • $\Omega$: ensemble de réalisation possible (parfois appelé Univers)
  • $\quad \rightarrow$ durée de vie d'une population (continue, $\Omega = \mathbb{R}_{+}$)$ \\ $ $\quad \rightarrow$ comptage d'objet défaillant durant une période donnée ($\Omega = \mathbb{N}$)$\\$

    Dans cette 1$^{\mathrm{ère}}$partie, $\Omega$ sera au plus égal à $\mathbb{N}$

  • $\omega \in \Omega$: épreuve, issue
  • $\quad \rightarrow$ représente le résultat d'un(e) phénomène/expérience aléatoire.
  • $A \subset \Omega$ ou $A \in \mathcal{P}(\Omega)$ (partie de $\Omega$): évènement aléatoire
Exemple (lancé de dés) :
Considérons 2 dés et l'évènement $A=\{$ Faire au moins 10 après un lancer de 2 dés$\}$. On a l'ensemble $\Omega=\left\{1,\dots,6\right\} \times \left\{1,\dots,6\right\}$ et
$$ A = \left\{(\omega_1,\omega_2) \in \Omega \mid \omega_1 + \omega_2 \geq 10 \right\} $$

Rappels & notations (2/2)

Dans ce contexte, on rappelle également que:$\\$
  • $\bigcup_{i \in \mathbb{N}} A_i = \{\omega \in \Omega \mid \exists i \in \mathbb{N}, \omega \in A_i \}$
  • $\bigcap_{i \in \mathbb{N}} A_i = \{\omega \in \Omega \mid \forall i \in \mathbb{N}, \omega \in A_i \}$
  • Soit $I \subset \mathbb{N}$, $(A_i)_{i \in I}$ partition de $\Omega$ $ \Leftrightarrow \forall i \neq j, A_i \cap A_j = \emptyset$ et $\Omega = \bigcup_{i \in \mathbb{N}} A_i$
  • $A, \bar{A}$ forment une partition de $\Omega$
$\\$ Notion de limite de suite croissante/décroissante d'évènements :
  • Si $(A_i)_i$ tel que $A_i \subset A_{i+1}$ alors on note $A:= \lim_{i} A_i = \bigcup_{n} A_i$ ou $A_i \uparrow A$
  • Si $(A_i)_i$ tel que $A_{i+1} \subset A_{i}$ alors on note $A:= \lim_{i} A_i = \bigcap_{n} A_i$ ou $A_i \downarrow A$

Mesure de probabilité

Intuitivement, on souhaite définir une application/mesure telle que :
  • la mesure de l'union d'ensembles disjoints soit la somme de la mesure de chaque ensemble
  • mesure de l'ensemble vide $=0$ et mesure de $\Omega = 1$ (probabilité)
Définition (Mesure de probabilité) :
Une mesure de probabilité sur $\Omega$ est une application
$\mathbb{P}: \mathcal{P}(\Omega) \to \mathbb{R} \\ $ $ \qquad \qquad ~ A \mapsto \mathbb{P}(A)$
Qui vérifie
$\qquad$
  1. $\mathbb{P}(\emptyset) = 0$ et $\mathbb{P}(\Omega)=1$
  2. $\forall (A_i)_{i \in \mathbb{N}}$ d'évènements 2 à 2 disjoints
    $\mathbb{P}(\bigcup_{i \in \mathbb{N}} A_i) = \sum_{i \in \mathbb{N}} \mathbb{P}(A_i) \qquad \qquad \qquad \qquad \qquad (\sigma\texttt{-additivité})$

Propriétés

Propriétés sur la mesure de probabilité :
Soit $\mathbb{P}$ une mesure de probabilité. Elle satisfait les propriétés suivantes :
  1. $\mathbb{P}(\bar{A}) = 1-\mathbb{P}(A)$
  2. $\mathbb{P}(A \cup B) = \mathbb{P}(A) + \mathbb{P}(B) - \mathbb{P}(A \cap B)$
  3. Si $A \subset B$ alors $\mathbb{P}(A) \leq \mathbb{P}(B)$
  4. Si $(A_i)_i$ forme une partition de $\Omega$ alors pour tout $B \subset \Omega$
    $\mathbb{P}(B) = \sum_{i} \mathbb{P}(B \cap A_i) \quad (\texttt{Formule des probabilités totales})$
  5. $\mathbb{P}(\cup_{i}A_i) \leq \sum_{i} \mathbb{P}(A_i) \quad ~~~ (\texttt{Borne de l'union})$
  6. Si
    $\qquad \rightarrow A_n \uparrow A$, alors $\mathbb{P}(A) = \lim_{n \to +\infty} \mathbb{P}(A_n) \\$ $\qquad \rightarrow A_n \downarrow A$, alors $\mathbb{P}(A) = \lim_{n \to +\infty} \mathbb{P}(A_n) \\$
  7. Si $\forall n \in \mathbb{N}^{\star}, \mathbb{P}(A_n) =1$ alors $\mathbb{P}(\bigcap_{n=1}^{\infty} A_n) = 1$

Probabilité conditionnelle

Proba conditionnelle de $A$ sachant $B \rightarrow$ quantifie l'occurence $A$ sachant que $B$ s'est produit.
Définition (Probabilité conditionnelle) :
Soit $\mathbb{P}$ une mesure de probabilité et $B$ tel que $\mathbb{P}(B)>0$. On définit la probabilité conditionnelle de $A$ sachant $B$ comme suit : $\\$
$\mathbb{P}(A\mid B) =\dfrac{\mathbb{P}(A \cap B)}{\mathbb{P}(B)}$

Remarque : $A \mapsto \mathbb{P}(A \mid B)$ est une mesure de probabilité (vérifier les axiomes)

Propriétés :
  1. Si on considère $(B_i)_{i \in I}$ une partition de $\Omega$ alors: $\\$
    $\mathbb{P}(A) = \sum_{i \in I} \mathbb{P}(A \mid B_i) \mathbb{P}(B_i)$
  2. Pour tout évènement $A$ et $B$ on a:
    $ \qquad \qquad \qquad\mathbb{P}(B \mid A) = \dfrac{\mathbb{P}(A \mid B) \mathbb{P}(B)}{\mathbb{P}(A)}$ $ \quad \texttt{(Formule de Bayes)} $

Indépendance

Definition :
  1. $A$ et $B$ sont dits indépendants ($A \perp \! \! \! \perp B$) si
    $\mathbb{P}(A\cap B) = \mathbb{P}(A) \mathbb{P}(B) \Leftrightarrow \mathbb{P}(A \mid B) = \mathbb{P}(A)$
  2. Une famille d'évènements $(A_i)_{i \in I}$ est dite indépendante si
    pour tout ensemble fini $J \subset I$ la sous-famille $(A_j)_{j \in J}$ vérifie :
    $\mathbb{P}(\bigcap_{j \in J}A_j) = \prod_{j \in J} \mathbb{P}(A_j)$

Exemple : $A \perp \! \! \! \perp B \perp \! \! \! \perp C \Leftrightarrow \begin{cases} \mathbb{P}(A \cap B) &= \mathbb{P}(A)\mathbb{P}(B); \\ \mathbb{P}(A \cap C) &= \mathbb{P}(A)\mathbb{P}(C); \\ \mathbb{P}(A \cap B \cap C) &= \mathbb{P}(A)\mathbb{P}(B)\mathbb{P}(C). \end{cases} $

Variable aléatoire

$\Omega$ et $E$ sont des espaces discrets.
Définition (Variable aléatoire)
Une variable aléatoire (v.a.) $X$ sur $E$ est une fonction $X:\Omega \to E$.
$X(\omega)$ est parfois appelé une réalisation de $X \\$ $\quad \rightarrow$ elle dépend du résultat d'une expérience. $\\ \\$ On s'intéresse aux évènements suivants associés à une v.a. $X~: \\$
  • $A=X^{-1}(\{x\}) \rightarrow $"La variable $X$ prend la valeur $x$"
  • $A=\{\omega \in \Omega \mid X(\omega) \in H\} := X^{-1}(H) \rightarrow $"La variable $X$ appartient à $H$"
  • $X^{-1}(H)$ est appelé l'image réciproque de $H$ par $X$

Loi d'une variable aléatoire

Définition (Loi d'une variable aléatoire)
La loi d'une v.a. $X$ est l'application
$\mathbb{P}_X: E \to \mathbb{R} \\ $ $ \qquad \qquad \quad \qquad \qquad ~ H \mapsto \mathbb{P}(X^{-1}(H))$

Notations: On note $\mathbb{P}_X = \mathbb{P} \circ X^{-1}$ mais également :

$$\begin{aligned} \mathbb{P}(X^{-1}(H)) &=\mathbb{P}(\{\omega \in \Omega: X(\omega) \in H\})\\ &:=\mathbb{P}(\{X \in H\}) \\ &:=\mathbb{P}(X \in H) \\ \end{aligned} $$
On a de plus les notations équivalentes suivantes :
$\mathbb{P}_{X}(H) := \mathbb{P}(X \in H) = \sum_{x \in H} \mathbb{P}_{X}(x) = \sum_{x \in H} \mathbb{P}(X=x)$

Propriété
$\mathbb{P}_{X}$ est une mesure de probabilité

Preuve dans le poly.

Loi jointe, loi marginale

Définition (Loi jointe, loi marginale)
Soit $X$ et $Y$ deux v.a; de $\Omega$ dans $E$ de lois respectives $\mathbb{P}_{X}$ et $\mathbb{P}_{Y}$. La loi du couple $(X,Y)$, notée $\mathbb{P}_{(X,Y)}$, s'appelle la loi jointe de $X$ et $Y$.
Les lois de $\mathbb{P}_{X}$ et $\mathbb{P}_{Y}$ sont respectivement les marginales de $X$ et $Y$.

La marginale peut être retrouvée à partir de la loi jointe via la relation suivante :

Propriété
$\forall x \in E, \mathbb{P}_{X}(x) = \sum_{y \in E} \mathbb{P}_{(X,Y)}(x,y)$.
Preuve : Appliquer la formule des probabilités totales sur les ensembles $\{Y=y\}$ où $y \in E$.

Indépendance de variables aléatoires

Définition (Indépendance de v.a.)
Deux v.a. $X$ et $Y$ sont dites indépendantes si pour tout $A,B \subset E$ on a l'indépendance des évènements $\{X \in A\}$ et $\{Y \in B\}$. C'est-à-dire :
$\forall A,B \subset E, \underbrace{\mathbb{P}(\{X \in A\} \cap \{Y \in B\})}_{=\mathbb{P}(X \in A,~ Y \in B)}=\mathbb{P}(X \in A)\mathbb{P}(X \in B)$
Remarque: On retrouve parfois la notation $\mathbb{P}(X\in A, Y\in B) = \mathbb{P}_{(X,Y)}(A \times B)$. $\\$ En effet $$ \begin{aligned} \mathbb{P}(X\in A, Y\in B) &= \mathbb{P}(\{\omega \in \Omega \mid X(\omega)\in A, Y(\omega)\in B\})\\ &= \mathbb{P}(\{\omega \in \Omega \mid (X(\omega),Y(\omega))\in A\times B\})\\ &= \mathbb{P}_{(X,Y)}(A \times B) \end{aligned} $$
Propriété
$$ \begin{aligned} X \perp \! \! \! \perp Y &\Leftrightarrow \forall (A,B) \subset \Omega^2, \mathbb{P}_{(X,Y)}(A \times B) = \mathbb{P}_{X}(A) \mathbb{P}_{Y}(B)\\ &\Leftrightarrow \forall (x,y) \in \Omega^2, \mathbb{P}(X=x,Y=y) = \mathbb{P}(X=x) \mathbb{P}(Y=y) \end{aligned} $$
Preuve: Au tableau.

Espérance

Définition (Espérance)
Soit $E \subset \mathbb{R}$, l'espérance d'une v.a. $X$ est définie (quand elle existe) par :
$$\mathbb{E}(X) = \sum_{x \in E} x \mathbb{P}(X=x)$$

Remarque : L'espérance existe si :

  • la série $\mathbb{E}(X)$ est absolument sommable $\left(\sum_x |x|\mathbb{P}(X=x) < \infty \right)$
  • $\forall x < 0, \mathbb{P}(X=x) = 0 \rightarrow$ que $X$ est positive $\mathbb{P}$-presque partout $(X \geq 0)$

Exemple : On considère la fonction indicatrice :

$$ \begin{aligned} \bold{1}_{A}: \Omega &\to \{0,1\}\\ \omega & \mapsto \begin{cases} 1 & \mathrm{si~\omega \in A} \\ 0 & \mathrm{sinon} \end{cases} \end{aligned} $$

Alors: $\mathbb{E}(\bold{1}_{A}) = 0\mathbb{P}(\bold{1}_{A}=0) + 1\mathbb{P}(\bold{1}_{A}=1) = \mathbb{P}(A) \implies \boxed{\mathbb{E}(\bold{1}_{A}) = \mathbb{P}(A)} $

Propriétés autour de l'éspérance (1/2)

On définit l'égalité $\mathbb{P}$- presque partout ($\mathbb{P}$-p.p.) c'est à dire avec probabilité 1 ($X=a ~\mathbb{P}$-p.p. veut dire $\mathbb{P}(X=a) = 1$)
Propriétés
Soit $X$ et $Y$ deux v.a. dans $E$ telles que $\mathbb{E}(|X|) < +\infty$ et $\mathbb{E}(|Y|) < +\infty, \alpha, \beta \in \mathbb{R}$ et $a \in E$. Alors :
  1. $\hspace{-2em} \mathbb{E}(\alpha X + \beta Y)$ est bien définie et $\mathbb{E}(\alpha X + \beta Y) = \alpha\mathbb{E}(X) + \beta\mathbb{E}(Y)$
  2. $\hspace{-2em} \text{Si } X \geq 0~\mathbb{P}-$ p.p. alors $\mathbb{E}(X) \geq 0$
  3. $\hspace{-2em}\text{Si } X \geq 0~\mathbb{P}-$ p.p. et $\mathbb{E}(X) = 0$ alors $X=0~\mathbb{P}-$ p.p.
  4. $\hspace{-2em} \left|\mathbb{E}(X)\right| \leq \mathbb{E}(\left|X\right|)$
  5. $\hspace{-2em}\text{Si } X \leq Y~\mathbb{P}-$ p.p. alors $\mathbb{E}(X) \leq \mathbb{E}(Y)$
  6. $\hspace{-2em}\text{Si } X = a~\mathbb{P}-$ p.p. alors $\mathbb{E}(X) = a$

Propriétés autour de l'éspérance (2/2)

Propriétés
Soit $X$ et $Y$ deux v.a. dans $E$ telles que $\mathbb{E}(|X|) < +\infty$ et $\mathbb{E}(|Y|) < +\infty$ et $ \\g: E \to \mathbb{R}$. Alors :
  1. $\hspace{-2em} \text{Les résultats élémentaires de Prop. 1.16.}$
  2. $\hspace{-2em}\forall \epsilon >0, \forall p \geq 1, \mathbb{P}(|X|>\epsilon) \leq \dfrac{\mathbb{E}(|X|^p)}{\epsilon^p} ~~ (\texttt{Inégalité de Markov})$
  3. $\hspace{-2em}\mathbb{E}(|XY|) \leq \sqrt{\mathbb{E}(X^2)\mathbb{E}(Y^2)}~~~~ (\texttt{Inégalité de Cauchy-Schwarz})$
  4. $\hspace{-2em} \mathbb{E}(g(X)) = \sum_{x\in E}g(x)\mathbb{P}(X=x) \quad ~~~ (\texttt{Théorème de transfert})$
  5. $\hspace{-2em} \text{Si~} X \perp \! \! \! \perp Y$ alors $\mathbb{E}(f(X)g(Y)) = \mathbb{E}(f(X))\mathbb{E}(g(Y))$

Preuve : au tableau pour ii. et v.

Remarque : iv. peut se généraliser pour $X_1,\dots,X_n$ et $g:E^n \to \mathbb{R}$:

$$ \mathbb{E}(g(X_1,\dots,X_n)) = \sum_{(x_1,\dots,x_n)\in E^n}g(x_1,\dots,x_n)\mathbb{P}(X_1=x_1,\dots,X_n=x_n) $$

Moments, variances et covariance

Définition
Soit $p \geq 0$. et soit $X$ une v.a. tel que $\mathbb{E}(|X|^p)<+\infty$. Alors :
  1. $\hspace{-3em}\mathbb{E}(X^p)$ est appellé le moment d'ordre $p$ de $X$. $X$ est alors dit d'ordre $p$.
  2. $X$ d'ordre 2. Sa variance, notée $\mathrm{Var}(X)$, est définie par:
    $$\mathrm{Var}(X):= \mathbb{E}\left[(X-\mathbb{E}(X))^2\right] $$
  3. $X,Y $deux v.a. d'ordre $2$. On définit leur covariance $\mathrm{Cov}(X,Y)$ par:
    $$\mathrm{Cov}(X,Y):= \mathbb{E}\left[(X-\mathbb{E}(X)(Y-\mathbb{E}(Y))\right] $$
    Si $\mathrm{Cov}(X,Y)=0$ $X,Y$ sont dits décorrélées.
Rappelons quelques propriétés importantes parmis celles du polycopié :
Propriétés
Soit $X,Y$ deux v.a. d'ordre $2$. Alors:$\\$
  1. $ \hspace{-3em} \text{Les résultats élémentaires de Prop. 1.20. sur la Variance/Covariance}$
  2. $\hspace{-3em} $ $X \perp \! \! \! \perp Y \implies \mathrm{Cov}(X,Y) =0$ (⚠ le contraire est généralement faux)
  3. $\hspace{-3em} $ $X$ et $Y$ ont mêmes lois $\implies$ leurs moments sont égaux.

II - Théorie de la Mesure

Notion de mesure et de tribu (Exemple sur $\mathbb{R}$)

Intuitivement, on aimerait une application $\mu:\mathcal{P }(\mathbb{R}) \to [0,+\infty]$ telle que :
  • Si $A, B \subset \mathcal{P }(\mathbb{R})$ sont disjoints alors $\mu(A \cup B) = \mu(A) + \mu(B)$
  • Plus généralement, si $(A_i)_i$ sont disjoints alors $\mu(\cup_i A_i) = \sum_i \mu(A_i)$
  • $\mu(\emptyset) = 0 \\$
  • $\mu([a,b]) = b-a$

Cela définit une mesure $\mu$ incluant notion de longueur. Cependant, une telle mesure n'existe pas sur $\mathcal{P}(\mathbb{R})$. Nous allons alors restreindre $\mathcal{P}(\mathbb{R})$ sur un sous ensemble $E$.

Intuitivement, $E$ doit respecter certaines contraintes pour définir une mesure comme

  • L'ensemble vide doit être dans $E$
  • Si $A$ est dans $E$ alors son complémentaire l'est aussi
  • Une union d'ensemble dans $E$ est toujours dans $E$
$ \\ \rightarrow$ Les trois axiomes précédents définissent une tribu.

Mesure de probabilité sur $\mathbb{R}$

Dans le cadre de ce cours, on aimerait également pour une v.a. $X: \Omega \to \mathbb{R}$ définir $P_{X} = \mathbb{P}(X\in H)$ la loi de $X$. Afin d'obtenir des lois ayant des propriétés intéressantes, il sera également aisé de restreindre $\mathcal{P}(\mathbb{R})$.

Tribus

Considerons $F$ un ensemble.
Définition [Tribu]
Une collection de sous-ensemble de $F$ notée $\mathcal{F}$ est une tribu si :
  1. $\emptyset \in \mathcal{F}$
  2. $A \in \mathcal{F} \implies A^{\mathsf{c}} \in \mathcal{F}~\texttt{(stabilité par passage au complémentaire)}$
  3. $A_1, A_2,\dots \in \mathcal{F} \text{ dénombrable} \Rightarrow \bigcup_i A_i \in \mathcal{F}~\qquad\texttt{(union dénombrable)}$

Exemple :

  • $\mathcal{F} = \mathcal{P}(F)\qquad \qquad \texttt{(tribu des parties de F)}$
  • $\mathcal{F} = \{\emptyset, F\} \qquad \quad ~~ \texttt{(tribu grossière)}$

Propriétés
Soit $\mathcal{F}$ et $\mathcal{F}^{\prime}$ deux tribus. Alors :
  • $\mathcal{F}$ est stable par intersection dénombrable
  • $\mathcal{F} \cap \mathcal{F}^{\prime}$ est une tribu   (⚠ ce n'est pas le cas pour l'union)

Preuve : esquisse au tableau
Remarque : $(F, \mathcal{F}$) est appelé espace mesurable

Tribu engendrée et tribu de Borel

Définition & Propriété [Tribu engendrée]
Soit $\mathcal{C}$ une collection d'ensembles de $F$. L'intersection de toute les tribus contenant $\mathcal{C}$ est une tribu appelée tribu engendrée par $\mathcal{C}$ (notée $\sigma(\mathcal{C})$).

Preuve : au tableau
Donnons un exemple de tribu engendrée sur une collection de $\mathbb{R}^{d}, d\geq 1$.

Définition [Tribu de Borel]
On définit la tribu de Borel sur $\mathbb{R}$ l'ensemble $\mathcal{B}(\mathbb{R})$ ci-dessous :
$\mathcal{B}(\mathbb{R}) = \sigma\left(\{[a,b]: a < b\}\right) \quad \texttt{(tribu engendrée par les [a,b])}$
Plus généralement, on définit la tribu de Borel sur $\mathbb{R}^{d}$ comme suit :
$$ \mathcal{B}(\mathbb{R}^d) = \sigma\left(\left\{\prod_{i=1}^{d}[a_i,b_i]: \forall i \in \llbracket 1, d \rrbracket, a_i < b_i\right\}\right) $$
Un ensemble de $\mathcal{B}(\mathbb{R}^d)$ est un "borélien"

Exemple :
$\rightarrow\{a\},~]a,b[,~]-\infty, b], ~\mathbb{Q}, ~\mathbb{R}\backslash \mathbb{Q} \in \mathcal{B}(\mathbb{R})$

Autres définition de la tribu de Borel

Propriétés
On a les définitions équivalentes suivantes pour $\mathcal{B}(\mathbb{R})^{d}$:
  • $\mathcal{B}(\mathbb{R}^{d}) = \sigma\left(\left\{\prod_{i=1}^{d}]-\infty,b_i]: b_1, \dots, b_d \in \mathbb{R}\right\}\right)$
  • $\mathcal{B}(\mathbb{R}^{d}) = \sigma\left(\text{ouverts de }\mathbb{R}^d\right)$

Preuve du premier point au tableau

Remarque : On parle également de la trace de $\mathcal{B}(\mathbb{R})$ sur $E$ pour un ensemble $E \subset \mathbb{R}$, noté $\mathcal{B}(E)$, et définit comme :

$$ \mathcal{B}(E) = \left\{H \cap E : H \in \mathcal{B}(\mathbb{R})\right\} $$

Mesures

Soit $(F, \mathcal{F})$ un espace mesurable.
Définition [Mesure et espace mesuré]
Une application $\mu : \mathcal{F} \to [0,+\infty]$ est une mesure sur $(F, \mathcal{F})$ si :
  1. $\mu(\emptyset) = 0$
  2. $\forall A_1, A_2, \dots \in \mathcal{F}$ 2 à 2 disjoints, $\mu(\bigcup_{i} A_i) = \sum _{i} \mu(A_i) \quad (\sigma-\texttt{additivité})$

  3. De plus :
  4. $\mu(F) < +\infty \implies \mu$ est dite finie
  5. $\mu(F) =1 \implies \mu$ est dite mesure de probabilité
  6. $(F, \mathcal{F}, \mu)$ est appelé espace mesurable.

Remarque :
Les propriétés sur les mesures sont identiques, à quelques subtilités près, à celles sur les mesures de probabilités (cf. Thm 3.7)

Caractérisation de mesures sur un $\pi$-système (1/2)

Il est souvent compliqué de montrer que deux mesures coïncident sur une même tribu. On se restreint donc à des ensembles plus simples comme les $\pi$-système :
Définition [$\pi$-système]
Un $\pi$-système $\mathcal{P}$ est une classe d'ensembles telle que $\forall P, P^{\prime} \in \mathcal{P}, P \cap P^{\prime} \in \mathcal{P}$

Exemples :

  • $\mathcal{P}_1=\left\{[a, b], a \leq b\right\} \cup \{\emptyset\}$ est un $\pi$-système (et $\mathcal{B}(\mathbb{R})=\sigma\left(\mathcal{P_1}\right)$).
  • $\mathcal{P}_2=\left\{]-\infty, a], a \in \mathbb{R}\right\}$ est un $\pi$-système (et $\mathcal{B}(\mathbb{R})=\sigma\left(\mathcal{P_2}\right)$).

On a le résultat suivant pour les mesures de probabilités sur un $\pi$-système :
Théorème
Soit $\mu,\nu$ deux mesures de probabilités sur $(F,\mathcal{F})$ et $\mathcal{P}$ un $\pi$-système tel que $\mathcal{F} = \sigma\left(\mathcal{P}\right)$ et $\mu,\nu$ coincïdent sur $\mathcal{P}$. Alors $\mu = \nu$.

Preuve : Admise (cf Annexe. Fait appel aux $\lambda$-systèmes)

Application : Fonction de répartition

La fonction de répartition est un outils très utile qui permet de caractériser les mesures de probabilités. Nous verrons plus tard qu'elle sert également à caractériser les lois de probabilités (ces dernières étant des mesures de probas).
Définition [Fonction de répartition]
Soit $\mu$ une mesure de probabilité sur $(\mathbb{R}, \mathcal{B}(\mathbb{R}))$. La fonction :
$$ \begin{aligned} F_{\mu}: \mathbb{R} &\to \mathbb{R}\\ x & \mapsto \mu\left(]-\infty, x]\right) \end{aligned} $$
est appelée la fonction de répartition de $\mu$.

On a alors le résultat suivant :

Corollaire
Si $\mu$ et $\nu$ sont deux mesures de probabilités sur $(\mathbb{R}, \mathcal{B}(\mathbb{R})$ telles que $F_{\mu} = F_{\nu}$ alors $\mu = \nu$.

Preuve : au tableau.

Caractérisation de mesures sur un $\pi$-système (2/2)

Une autre catégorie de mesures plus restreinte que les mesures finies coïncident également sur les $\pi$-système : les mesures $\sigma$-finies.
Définition [Mesure $\sigma$-finie]
Une mesure $\mu$ sur $(F, \mathcal{F})$ est $\sigma$-finie sur $\mathcal{P}$ si il existe $(A_i)$ telle que :
  1. $\forall i, A_i \in \mathcal{P}$
  2. $\bigcup_i A_i = F$
  3. $\forall i, \mu(A_i) < \infty $
On a le résultat suivant pour les mesures $\sigma$-finies sur un $\pi$-système :
Théorème
Soit $\mu,\nu$ deux mesures $\sigma$-finies sur $(F,\mathcal{F})$ et $\mathcal{P}$ un $\pi$-système tel que $\mathcal{F} = \sigma\left(\mathcal{P}\right)$ et $\mu,\nu$ coincïdent sur $\mathcal{P}$. Alors $\mu = \nu$.

Preuve : admise.

Application : Mesure de Lebesgue

Théorème [Mesure de Lebesgue]
Il existe sur $(\mathbb{R}^d, \mathcal{B}(\mathbb{R}^d))$ une unique mesure $\lambda_d$ telle que $\forall a_1 < b_1, \dots, a_d < b_d$
$$\lambda_d \left([a_1,b_1] \times \dots \times [a_d, b_d]\right) = \prod_{i=1}^d (b_i - a_i)$$
$\lambda_d$ est appelée mesure de Lebesgue sur $\mathbb{R}^{d}$.

Preuve : existence admise. Unicité au tableau.
Remarques :

  • Intuitivement, $\lambda_1 =$ "longueur", $\lambda_2 =$ "aire" etc.
  • $\forall A \in \mathcal{B}(\mathbb{R}^d) \forall x \in \mathbb{R}^{d}, \lambda_d(A+x) = \lambda_d(A)$ (les pavés forment un $\pi$-système)
  • $\lambda_d(\{a\}) = 0$

Nous reverrons cette mesure plus en détails dans le chapitre sur l'intégration.

Fonction Mesurables, Boréliennes

Soit $(F,\mathcal{F})$ et $(E,\mathcal{E})$ deux espaces mesurables.
Définition [fonctions mesurables et fonctions boréliennes]
Une application $X:F \to E$ est dite $\mathcal{F/\mathcal{E}}$-mesurable, ou mesurable, si :
$$ \forall H \in \mathcal{E}, X^{-1}(H) \in \mathcal{F} $$
Si on a $(F,\mathcal{F})=(\mathbb{R}^n,\mathcal{B}(\mathbb{R}^n))$ et $(E,\mathcal{E}) = (\mathbb{R}^d,\mathcal{B}(\mathbb{R}^d))$, on dira que $X$ est une fonction borélienne. En probabilité, $X$ mesurable est une variable aléatoire.

Nous donnons ci-après un résultat sur les fonctions mesurables :

Propriété
Soit $(E^\prime, \mathcal{E}^\prime)$ un espace mesurable. Si $X:F \to E$ et $f: E \to E^\prime$ sont mesurables alors $f\circ X:F \to E^\prime$ est également mesurable.

Preuve : cf. Poly.

Propriétés sur les fonction Boréliennes

Propriétés
Soit $f: \mathbb{R}^d \to \mathbb{R}^{n}$ une fonction continue et $X,Y$ des fonctions boréliennes sur $\mathbb{R}$ et $(X_n)_{n \in \mathbb{N}}$ une suite de fonction mesurables sur $\bar{\mathbb{R}}$. Alors :
  1. $f$ est borélienne.
  2. $X+Y, XY, \max(X,Y), \min(X,Y)$ sont boréliennes.
  3. Si $\lim_{n \to + \infty}(X_n)$ existe alors cette limite est borélienne.
  4. $\sup X_n$ et $\inf X_n$ sont boréliennes.

Preuve : cf. Poly.

Propriété
Soit $\forall x \in F, \bold{Y}(x)=(Y_1(x), \dots, Y_d(x))$ une application de $F$ dans $\mathbb{R}^{d}$ où $Y_1, \dots, Y_d$ sont des fonctions de $F$ dans $\mathbb{R}$. Les assertions suivantes sont équivalentes :
  1. $\bold{Y}$ est borélienne sur $\mathbb{R}^{d}$.
  2. Les composantes $Y_1, \dots, Y_d$ sont boréliennes sur $\mathbb{R}$.

Mesure image

Soit $(F,\mathcal{F}, \mu)$ un espace mesuré et $(E,\mathcal{E})$ un espace mesurable. S'il existe une fonction mesurable entre $F$ et $E$, on peut alors transferer $\mu$ vers l'espace d'arrivée $(E, \mathcal{E})$ et ainsi obtenir un espace mesuré.
Théorème [mesure image]
Soit $X:F \to E$ une application mesurable. L'application :
$$ \begin{aligned} \mu\circ X^{-1}: \mathcal{E} &\to [0,+\infty]\\ H & \mapsto \mu\left(X^{-1}(H)\right) \end{aligned} $$
est une mesure sur $(E, \mathcal{E})$ appelée mesure image de $\mu$ par $X$.

Preuve : vérifier les axiomes. Pour ii) utiliser $X^{-1}(\bigcup_n A_n) = \bigcup_n X^{-1}(A_n)$.

Application : loi d'une variable aléatoire

Dans un contexte probabiliste, on pose :
  • $(F,\mathcal{F}, \mu)=(\Omega, \mathcal{F}, \mathbb{P})~ \qquad \qquad \qquad \texttt{(espace probabilisé)}$
  • $(E,\mathcal{E}) = (\mathbb{R}, \mathcal{B}(\mathbb{R})) ~ \qquad \qquad \qquad \quad\texttt{(espace probabilisable)}$
  • $X : \Omega \to E$ une fonction mesurable $ \quad \texttt{(variable aléatoire réelle)}$

Alors, d'après le théorème précédent, on a plus précisement :

  • $\mathbb{P} \circ X^{-1}:H\to\mathbb{P}(X^{-1}(H))$ est une mesure image.$\texttt{(Loi de X)}$
  • $\mathbb{P}_{X} := \mathbb{P} \circ X^{-1}$ est même une mesure de probabilité sur $(\mathbb{R}, \mathcal{B}(\mathbb{R}))$
  • Elle est par conséquent entièrement caractérisée par sa fonction de répartition :
  • $$\begin{aligned} \cancel{F_{\mathbb{P}_X}} = F_X(x) &= \mathbb{P}_{X}(]-\infty, x])\\ &:=\mathbb{P}(\{\omega \in \Omega \mid X(x) \in ]-\infty, x]\}) \\ &:=\mathbb{P}(X \in ]-\infty, x]) \\ &:= \mathbb{P}(X \leq x) \end{aligned} $$
Ainsi deux variable aléatoires réelles (v.a.r.) qui ont même fonction de répartition suivent la même loi.

III - Intégration

Motivations en probabilités

On cherche à généraliser la notion d'espérance pour n'importe qu'elle variable aléatoire réelle avec $(\Omega,\mathcal{F},\mathbb{P})$ un espace probabilisable et $(\mathbb{R}, \mathcal{B}(\mathbb{R}))$ un espace probabilisé:
  • $\mathbb{E}(X) = \sum_{\omega \in \Omega} X(\omega)\mathbb{P}(\{\omega\})$ pour les variables discrètes.
  • On souhaite donc avoir une formule générale du type :
    $$ \mathbb{E}(X)= \int_{\omega \in \Omega}X(\omega)\mathbb{P}(d\omega) $$
    pour une v.a.r. $X:\Omega \to \mathbb{R}$.
  • L'intégrale de Riemann s'avère en fait insuffisante (limite uniforme de suite de fonctions en escalier)
  • On souhaite définir une intégrale pour toute fonction mesurable (c'est l'intégrale de Lebesgue)
  • L'intégrale de Lebesgue par ailleurs coïncide avec l'intégrale de Riemann

Pour ce faire, nous allons nous replonger dans la théorie de la mesure pour définir l'intégrale dans ce contexte.

Intégrale d'une fonction étagée (1/2)

Afin de définir l'intégrale d'une fonction quelconque, on s'intéresse d'abord à l'intégrale de fonctions mesurables très simple. Dans la suite, on adoptera la convention "$0\times f(x) = 0$" pour n'importe quelle fonction même si $f(x) = \pm \infty$.
Définition [fonction mesurable étagée]
Une fonction $\mathcal{F}/\mathcal{B}(\mathbb{R})$-mesurable $f:F \to \mathbb{R}$ est dite étagée si elle prend un nombre fini de valeurs. $f$ s'écrit alors :
$$ \forall x \in F, f(x)= \sum_{i=1}^{n} \alpha_i \bold{1}_{A_i}(x) $$
où les $(\alpha_i)_{i=1}^{n}$ sont les valeurs distinctes prises par la fonction $f$ et $(A_i)_{i=1}^{n} \in F^{n}$ forment une partition de $F$.

Remarque:
$\rightarrow$ On a $ \forall i \in \llbracket 1, n\rrbracket, f^{-1}(\{\alpha_i\}) = \{x \in F \mid f(x) = \alpha_i\} = A_i$

Intégrale d'une fonction étagée (2/2)

Pour généraliser l'espérance, on veut en particulier
$$\mathbb{E}(\bold{1}_{A}) = \int_{\omega \in \Omega} \bold{1}_{A}\mathbb{P}(d\omega) = \mathbb{P}(A).$$
Plus généralement en théorie de la mesure, on veut donc
$$\int_{x\in F}\bold{1}_{A}(x)\mu(dx) := \int \bold{1}_{A} d\mu = \mu(A) \qquad \qquad (1)$$
On définit alors l'intégrale d'une fonction étagée positive $f$ comme suit:
Définition [$\mu$-intégrabilité d'une fonction étagée positive]
La $\mu$-intégrale d'une fonction étagée positive $f$ est donné par:
$$ \int f d\mu = \sum_{k=1}^{n}\alpha_{k}\mu(A_k) $$

Exemple :
$\rightarrow$ En posant $\alpha_1 = 1$ et $A_1 = A$ on a bien l'égalité $(1)$ recherchée.
$\rightarrow$ Soit $\lambda$ la mesure de Lebesgue sur $\mathbb{R}$. Alors $\int \bold{1}_{\mathbb{Q}}d\lambda = 0$ (non Riemann intégrable).

Propriétés

Propriété
Soient $\alpha_1,\dots,\alpha_n \geq 0$, $A_1, \dots, A_n \in \mathcal{F}$ (pas forcément distincts et ne formant par forcément une partition). Alors :
$$ \int \sum_{k=1}^{n} \alpha_{k} \bold{1}_{A_k} d\mu = \sum_{k=1}^{n}\alpha_{k}\mu(A_k) $$
En particulier pour $f,g$ deux fonctions étagées positives et $\alpha, \beta \geq 0$ :
$$ \int (\alpha f + \beta g) d\mu = \alpha\int f d\mu + \beta\int g d\mu $$

Preuve : Esquisse au tableau.

Propriété
Soit $f$ une fonction mesurable positive. Alors il existe $(f_n)$ une suite de fonction mesurable étagées telle que $0 \leq f_n \uparrow f$ où
$$ f_n \uparrow f \Leftrightarrow \begin{cases} \forall n, f_n \leq f_{n+1}, \\ \forall x \in F, f(x) = \lim_{n\to \infty}f_n(x) \end{cases} $$

Preuve : Exercice.

Intégrale d'une Fonction Mesurable Positive

Définition [intégrale d'une fonction mesurable positive]
Soit $f$ une fonction mesurable positive. On définit l'intégrale de $f$ comme suit :
$$ \int f d\mu = \sup \left\{ \int g d\mu : 0 \leq g \leq f \mid g \text{ étagée et mesurable}\right\} $$

Remarques :
$\rightarrow$ Il n'est pas impossible que l'intégrale soit égale à $+\infty$.
$\rightarrow$ Si $f$ est étagée positive, alors l'intégrale coïncide avec la définition précédente.

Nous allons maintenant énoncer un lemme qui nous permettra de démontrer plusieurs résultats par la suite :
Lemme [Convergence Monotone faible]
Soit $(f_n)$ et $f$ des fonctions mesurables positives tel que $f_n \uparrow f$. Alors :
$$ \lim_{n \to +\infty}\int f_n d\mu = \int f d\mu $$

Preuve : Au tableau

Fonction mesurables et premières propriétés

Définition [$\mu$-intégrabilité d'une fonction mesurable]
Soif $f:\Omega \to [-\infty, +\infty]$ mesurable. On définit l'intégrale de $f$ comme suit avec $\\f^{+}:=\max(f,0)$ et $f^{-}:=\max(-f,0)$:
$$ \int f d\mu = \int f^{+} d\mu - \int f^{-} d\mu $$
$\rightarrow$ L'intégrale de $f$ est bien définie si $\int f^{+} d\mu < +\infty$ ou $\int f^{-} d\mu < +\infty $.
$\rightarrow f$ est $\mu$-intégrable si $\int f^{+} d\mu < +\infty$ et $\int f^{-} d\mu < +\infty $
(on note alors $\mathcal{L}^1(\mu)$ l'ensemble des fonctions $\mu$-intégrables)

On a les premières propriétés suivantes :

Propriétés
Soif $f,g$ deux fonctions mesurables bien définies. Alors :
  1. $f \leq g \implies \int f d\mu \leq \int g d\mu$
  2. $\left|\int f d\mu\right| \leq \int |f|d\mu$

Preuve : Au tableau

Propriété de linéarité et corollaires

Propriété [linéarité]
Soit $f,g$ deux fonctions mesurables tels que $f,g \geq 0$ et $\alpha,\beta \geq 0$ ou $f,g \in \mathcal{L}^{1}(\mu)$. Alors :
$$ \int (\alpha f + \beta g) d\mu = \alpha\int f d\mu + \beta\int g d\mu $$

Preuve : Au tableau

Deux corollaires sont alors issus du résultat précédent :
Corollaire
On a les résultats suivants :
  1. $f \in \mathcal{L}^1(\mu) \Leftrightarrow \int |f| d\mu < +\infty$
  2. Soit $(f_n)_n$ des fonctions mesurables positives. Alors :
$$ \sum_{n=0}^{+\infty} \int f_n d\mu = \int \left(\sum_{n=0}^{+\infty} f_n \right) d\mu $$

Ensembles $\mu$-négligeables, $\mu$-presque partout

Motivations pour MDI103 : $(\mathcal{L}^{1}(\mu), ||f|| := \int |f|d\mu)$ n'est pas un espace vectoriel normé (parfois, $||f||=0 \cancel{\implies} f=0$). Cependant si on choisit l'égalité pour tout ensemble de mesure non nul, on obtient bien un espace vectoriel normé.
Définition [ensemble $\mu$-négligeable, propriété $\mu$-presque partout]
Soit $(F, \mathcal{F}, \mu)$ un espace mesuré alors :
$\quad \rightarrow$ Un ensemble est dit $\mu$-négligeable si $\mu(A)=0$.
$\quad \rightarrow$ Une propriété $\mathcal{P}(x)$ est dite vraie $\mu$-presque partout ($\mu$-pp) si $\forall x \in F, \mathcal{P}(x)$ $\quad\quad$ est vraie hors d'un ensemble $\mu$-négligeable.

Exemples :

  • $f=g \quad \mu$-pp $\Leftrightarrow \mu(\left\{x\in F \mid f(x) \neq g(x)\right\}) = 0$
  • $f_n \to f \quad \mu$-pp $\Leftrightarrow \mu(\left\{x\in F \mid f_n(x) \not\to f(x)\right\}) = 0$

Lemme
Si $N$ est $\mu$-négligeable, alors $\int f \bold{1}_N d\mu = 0$

Preuve : au tableau

Propriétés en vrac

Commençons par une propriété sur les fonctions positives mesurables.
Propriété
Si $f \geq 0$ et $\int fd\mu = 0$ alors $f=0 \quad\mu$-pp

Preuve : au tableau

Les propriétés suivants revisitent des propriétés vues auparavant :
Propriétés
On a les résultats suivant pour des fonctions mesurables :
  1. $f \leq g \quad\mu$-pp $\implies \int f d\mu \leq \int g d\mu$
  2. $f = g \quad\mu$-pp $\implies \int f d\mu = \int g d\mu$

Preuve : au tableau

Convergence Monotone et Lemme de Fatou

Les théorèmes suivants sont des résultats fondamentaux en théorie de l'intégration :
Théorème [de Convergence Monotone ou Beppo-Levi]
$0\leq f_n \uparrow f \quad \mu$-pp $\implies \lim_{n\to \infty}\int f_n d\mu = \int f d\mu$

Preuve : Utiliser le Lemme de convergence monotone faible + décomposer $1 = 1_N + 1_{\bar{N}}$

On définit :
  • $\lim \inf u_n = \lim_{n\to \infty} \left(\inf_{k\geq n} u_k\right)$
  • $\lim \sup u_n = \lim_{n\to \infty} \left(\sup_{k\geq n} u_k\right)$

Exemple: $u_n = (\sin n)$ alors $\lim \inf_{n \to \infty} (u_n) = -1$ et $\lim \sup_{n \to \infty} (u_n) = 1$

Théorème [Lemme de Fatou]
Soif $(f_n) \geq 0$. Alors:
$ \int \lim \inf_{n\to \infty} f_n d\mu \leq \lim \inf_{n\to \infty} \int f_n d\mu$

Preuve : Au tableau.

Théorème de Convergence Dominée

Théorème [de Convergence Dominée]
Soit $(f_n),f,g$ des fonctions mesurables telles que :
  • $f_n \to f \quad \mu-$pp
  • $|f_n| \leq g, \forall n$ et $\int g d\mu \leq +\infty$

Alors :
$$\int f_n d\mu \to_{n\to \infty} \int f d\mu$$

Preuve : Au Tableau.

Lien entre intégrale de Riemann et intégrale de Lebesgue (1/2)

Rappelons comment est définie l'intégrale de Riemann. On considère :
  • $\Pi = \{x_0,\dots,x_n\}$ une subdivision de $[a,b]$ (i.e. $a=x_0< x_1 \dots < x_n = b$)
  • $f$ bornée sur $[a,b]$ dans à valeurs dans $\mathbb{R}$
  • Les sommes de Darboux supérieures $S_\Pi$ et inférieures $s_\Pi$ :
    $S_\pi = \sum_{i=1}^{n} (x_i - x_{i-1}) \underset{x\in [x_{i-1}, x_i]}{\sup} f(x) \\ s_\pi = \sum_{i=1}^{n} (x_i - x_{i-1}) \underset{x\in [x_{i-1}, x_i]}{\inf} f(x) $
  • On dit que $f$ est Riemann intégrable si pour tout $\epsilon > 0$ on a existence d'une subdivision $\Pi$ tel que $S_\Pi - s_\pi < \epsilon$. Dans ce cas, $\inf_{\Pi}S_\Pi = \sup_{\Pi}s_\Pi$ et cette valeur est l'intégrale de Riemann notée $\int_{a}^{b}f(x)dx.$ Il peut être montré que toute fonction continue, cpm, en escalier ou monotone est Riemann intégrable.

L'intégrale de Lebesgue existe quant à elle pour toute fonction mesurable et est définie par $\int f(x) \lambda(dx)$ ou plus simplement noté $\int f(x) dx$ quand il n'y a pas d'ambiguité.

Lien entre intégrale de Riemann et intégrale de Lebesgue (2/2)

Henri Lebesgue a démontré le résultat suivant :
Théorème
Si $f$ est Riemann intégrable alors il existe $g \in \mathcal{L}^{1}(\lambda)$ muni de la tribu de Borel et telle que $f=g \quad \lambda$-pp.

On voit que la réciproque est fausse pour beaucoup de fonctions mesurables. Par exemple si on prend $f=\bold{1}_{\mathbb{Q} \cap [0,1]}$ par densité des rationnels dans $\mathbb{R}$ pour tout sous intervalle $[x_i, x_{i-1}]$, il existe un rationnel et un irrationnel. Par conséquent, $S_{\Pi} = 1$ et $s_{\Pi} = 0$. Hors on sait que l'intégrale de Lebesgue vaut $0$ (union dénombrable).

Cela montre entre autre l'intérêt de considérer l'intégration par rapport à la mesure de Lebesgue.

IV - Variables Aléatoires et Espérance

Rappels : Variables aléatoires

On considère $(\Omega, \mathcal{F}, \mathbb{P})$ un espace de probabilité et $(E, \mathcal{E})$ un espace probabilisable. On rappelle que :
  • $X$ est une variable aléatoire (v.a.) $\Leftrightarrow$ $X : \Omega \to E$ est mesurable.
  • La loi de la v.a. $X$, notée $\mathbb{P}_{X}$, est la mesure image de $\mathbb{P}$ i.e. $\mathbb{P}_{X}=\mathbb{P} \circ X^{-1}$:
    $$ \begin{aligned} \mathbb{P}_{X}: \mathcal{E} &\to [0,1]\\ H & \mapsto \mathbb{P}(X\in H) = \mathbb{P}(X^{-1}(H)) \end{aligned} $$
Dans le cas où $(E, \mathcal{E})=(\mathbb{R}^d, \mathcal{B}(\mathbb{R}^d))$ :
  • $X$ est une variable aléatoire réelle (v.a.r) $\Leftrightarrow$ $X : \Omega \to \mathbb{R}^{d}$ est mesurable.
  • On a la fonction de répartition de $X$ pour $x=(x_1,\dots,x_d) \in \mathbb{R}^{d}$ :
    $$F_X(x) = \mathbb{P}(X \leq x) = \mathbb{P}(X \in ]-\infty, x_1] \times \dots \times ]-\infty, x_d]) $$
  • $F_X = F_Y \Leftrightarrow \mathbb{P}_{X} = \mathbb{P}_{Y}$ (même loi $\Leftrightarrow$ même fonction de répartition)

On rappelle (cf. poly) :
  • $F_X$ est croissante, continue à droite et $\underset{x \to -\infty}{\lim} F(x) = 0, \underset{x \to +\infty}{\lim} F(x) = 1$
  • $F_X(x^-) = \mathbb{P}(X < x)$
  • $F_X(x^-) + \mathbb{P}(X=x) = F_X(x)$

Variables aléatoires à densité

On rappelle qu'on a vu en TD : D'après ce que l'on a vu en TD. On peut donner la définition suivante :
Définition [densité de probabilité d'une variable aléatoire]
Si $\mathbb{P}_{X}$ est une mesure à densité par rapport à une mesure $\mu$, il existe alors $f_X$ mesurable positive vérifiant $\int f_X d\mu = 1$ et :
$\forall H \in \mathcal{E},~ \mathbb{P}_{X}(H) = \mathbb{P}(X\in H) = \int_{x \in H} f_X(x)d\mu(x) $
On dit que $f_X$ est la densité de probabilité de $X$.
On a par ailleurs un lien entre la densité de probabilité de $f_X$ et la fonction de répartition $F_X$ :
Propriété
Si $X$ est une v.a.r. dont $F_X$ est continue et $C^1$ par morceaux alors :
$f_X(x) = F_X^\prime(x)$

Espérance

Dans le cas discret $\mathbb{E}(X) = \sum_{n}x_n \mathbb{P}(X=x_n)$ avec $X\in \{x_1,\dots ,\}$. Dans le cas des v.a.r. ?
Définition
Si $X$ est une v.a.r. telle que $X \geq 0$ ou $\int_{\omega \in \Omega} |X(\omega)|d\mathbb{P}(\omega) < \infty$, on définit l'espérance de $X$, notée $\mathbb{E}(X)$, par :

$\mathbb{E}(X) = \int_{\omega \in \Omega} X(\omega) d\mathbb{P}(\omega)$

Remarque : $\mathbb{E}(\bold{1}_A) = \int_{\Omega} \bold{1}_A(\omega)d\mathbb{P}(\omega) = \mathbb{P}(A)$ soit pour $A = \{X\in H\} \in \mathcal{B}(\mathbb{R}^d)$ :

$\mathbb{E}(\bold{1}_{X\in H}) = \mathbb{P}(X \in H)$

En pratique, cette définition n'est pas applicable car nous n'avons pas une formule de $X$ directement ni une expression de $\mathbb{E}(X)$ en fonction de $\mathbb{P}$.

Nous pouvons cependant avoir une expression de $\mathbb{E}(X)$ en fonction de $\mathbb{P}_{X}$, voire de $\mathbb{E}(g(X))$ en fonction de $\mathbb{P}_X$ (et non de $\mathbb{P}_{g(X)}$)

Théorème de Transfert

Les deux paragraphes précédents sont des résultats représentées par le théorème de transfert :
Théorème [de Transfert]
Si $X$ est une v.a.r. telle que $X:\Omega \to E$ et $g: E \to \mathbb{R}$ meusrable telle que $\mathbb{E}(g(X))$ soit bien définie. Alors :
$\mathbb{E}(g(X)) = \int g d\mathbb{P}_X$

Preuve : Esquisse au tableau.

Application (Espérance d'une variable à densité) :
$\rightarrow$ Dans le cas des variables à densité, Soit $X$ de densité $f_X$ p/r à Lebesgue. D'après Exo 14 $\mathbb{P}(X\in H) = \int_{H}f_X(x)dx$. D'après Exo 16, $\int gd\mathbb{P}_X = \int g(x)f_X(x)dx$. Finalement par le théorème de Transfert on a alors :

$\mathbb{E}(g(X)) = \int_{x \in \Omega} g(x) f_X(x) dx$
$\rightarrow$ en particulier dans le cas où $g = x$ on a :
$\mathbb{E}(g(X)) = \int_{x \in \Omega} xf_X(x) dx = \text{"barycentre de }f_X \text{"}$

Inégalités importantes, variance, moments d'ordre supérieur

Nous listons ici des inégalités classiques. Les démonstrations sont disponibles dans le polycopié :
Théorème [Inégalités de Markov, de Hölder et de Jensen]
On a les inégalités suivantes pour des v.a.r. $X, Y$ :
  1. $\forall \epsilon >0, p \geq 1 : \mathbb{P}(|X| > \epsilon) \leq \frac{\mathbb{E}(|X|^p)}{\epsilon^p} \quad\quad\quad\quad\quad\quad\quad~~\texttt{(Markov)}$
  2. $p,q \geq 0, \frac{1}{p} + \frac{1}{q} = 1: \mathbb{E}(|XY|) \leq \mathbb{E}(|X|^p)^{\frac{1}{p}}\mathbb{E}(|X|^q)^{\frac{1}{q}} \quad \texttt{(Hölder)}$
  3. $\varphi:\mathbb{R} \to \mathbb{R}$ convexe et $\mathbb{E}(|X|), \mathbb{E}(|\varphi(X)|) < \infty :$
    $ \qquad\qquad\qquad\varphi(\mathbb{E}(X) )\leq \mathbb{E}(\varphi(X)) \quad \qquad \qquad \qquad\quad~ \texttt{(Jensen)}$
Les définitions, propriétés et résultats sur les variance covariance et moments d'ordre $p$ sont exactement les mêmes que dans le cas discret (c.f. Poly)

V - Théorème de Fubini et Indépendance

Tribu Produit

On considère $(F, \mathcal{F}, \mu)$ un espace mesurée, et $(E_1, \mathcal{E}_1) , (E_2, \mathcal{E}_2)$ des espace mesurables, $f_1:F \to E_1$ et $f_2:F \to E_2$ des fonctions mesurables. Egalement :
$$ \begin{aligned} f: F &\to E_1 \times E_2\\ f & \mapsto (f_1(x_1), f_2(x_2)) \end{aligned} $$
En proba, une variable aléatoire sur $E_1 \times E_2$ est aussi appelé vecteur aléatoire. Définissons la tribu choisie sur $E_1 \times E_2$.
Définition [tribu produit]
La tribu produit sur $E_1 \times E_2$ est définie comme suit :
$$\mathcal{E}_1 \otimes \mathcal{E}_2 = \sigma(\{H_1 \times H_2 : H_1 \in \mathcal{E}_1, H_2 \in \mathcal{E}_2\})$$
C'est la plus petite tribu qui contient les pavés du type $H_1 \times H_2$.

On a la propriété suivante sur les boréliens :

Propriété
Avec la définition précédente, on a : $\bigotimes_{d=1}^{D}\mathcal{B}(\mathbb{R}) = \mathcal{B}(\mathbb{R}^d)$

Mesure produit

Un des choix majeurs d'une telle tribu produit est le résultat suivant :
Théorème [mesure produit]
Soit $\mu_1, \mu_2$ des mesures $\sigma$- finies sur $(E_1, \mathcal{E}_1)$ et $(E_2, \mathcal{E}_2)$ respectivement. Il existe une unique mesure produit sur $\mathcal{E}_1 \otimes \mathcal{E}_2$ et notée $\mu_1 \otimes \mu_2$ telle que :
$$\mu_1 \otimes \mu_2 (H_1 \times H_2) = \mu_1(H_1) \mu_2 (H_2)$$

Exemple : Considérons $E_1=E_2=\mathbb{R}$ et $\mu_1=\mu_2=\lambda$ la mesure de Lebesgue
$\lambda \otimes \lambda$ est l'unique mesure sur $\mathcal{B}(\mathbb{R}) \otimes \mathcal{B}(\mathbb{R})$ telle que $\lambda \otimes \lambda (H_1 \times H_2) = \lambda(H_1) \lambda(H_2)$ en particulier :

$$\begin{aligned} \lambda \otimes \lambda ([a_1,b_1] \times [a_2,b_2]) &=(b_1 - a_1)(b_2-a_2)\\ &:=\lambda_2([a_1, b_1]\times [a_2, b_2]) \end{aligned} $$
Donc $\lambda \otimes \lambda $ coïncide sur $\mathcal{B}(\mathbb{R}^2)$ avec $\lambda_2$.

Théorème de Fubini

Nous énonçons deux théorèmes fondamentaux en intégrations :
Théorème [Fubini-Tonelli et Fubini]
  1. Soit $f: E_1 \times E_2 \to \mathbb{R}_+$ une fonction mesurable. alors :
    $$\begin{aligned} \int_{E_1 \times E_2}f d(\mu_1 \otimes \mu_2) &= \int_{E_1} \left( \int_{E_2}f(x,y) d\mu_2(y) \right)d\mu_1(x) \\ &=\int_{E_2} \left( \int_{E_1}f(x,y) d\mu_1(x) \right)d\mu_2(y) ~ \texttt{(Fubini-Tonelli)} \end{aligned} $$
  2. Soit $f$ telle que $\int |f| d\mu_1 \otimes d\mu_2 < \infty$ alors :
    i) reste vraie $ \qquad \qquad \qquad \qquad \qquad \quad \texttt{(Fubini)}$

Preuve : esquisse de i) au tableau.

Exemples d'application directe du théorème de Fubini

Exemples :
$\rightarrow$ $E_1=E_2=\mathbb{R}, \mu_1 = \mu_2 = \lambda, \lambda \otimes \lambda = \lambda_2$ alors : $$ \int_{\mathbb{R}^2} f d\lambda_2 = \int_{\mathbb{R}} \left(\int_{\mathbb{R}} f(x,y)dx\right)dy = \int_{\mathbb{R}} \left(\int_{\mathbb{R}} f(x,y)dy\right)dx$$ $\rightarrow$ $E_1=E_2=\mathbb{R}, \mu_1 = \mu_2 = \sum_{i=0}^{+\infty}\delta_i$ (mesure de comptage sur $\mathbb{N}$) alors :
$\quad \triangleright$ $\left(\sum_{i=0}^{+\infty}\delta_i\right)\otimes\left(\sum_{i=0}^{+\infty}\delta_i\right) = \sum_{i,j\in \mathbb{N}^2}\delta_{(i,j)}$ (à la maison)
Par Fubini pour $f \geq 0$ on obtient que :

$$ \int_{\mathbb{R}^2} f d\left(\sum_{i,j\in \mathbb{N}^2}\delta_{(i,j)}\right) = \int_{\mathbb{R}} \left(\int_{\mathbb{R}} f(x,y)d\left(\sum_{i=0}^{+\infty}\delta_i\right)(x)\right)d\left(\sum_{i=0}^{+\infty}\delta_i\right)(y) = \sum_{j\in\mathbb{N}}\sum_{i\in\mathbb{N}} f(i,j)$$

$\rightarrow$ $E_1=E_2=\mathbb{R}, \mu_1 = \lambda, \mu_2 = \sum_{i} \delta_i$. Le théorème de Fubini devient alors le théorème de permutation somme-intégrale (à la maison)

Généralisation des résultats précédents

On peut généraliser sur $(E_1, \mathcal{E}_1) \times \dots \times (E_d, \mathcal{E}_d)$ trivialement :

Tribu produit : $\bigotimes_{i=1}^{d}\mathcal{E}_i = \sigma\left(\{H_1 \times \dots \times H_d : H_1 \in \mathcal{E}_1, \dots, H_d \in \mathcal{E}_d\}\right)$

Mesure produit : $\bigotimes_{i=1}^d\mu_i$ unique mesure telle que:

$$ \forall H_1 \in \mathcal{E}_1, \dots, H_d \in \mathcal{E}_d, ~\bigotimes_{i=1}^d\mu_i(H_1 \times \dots H_d) = \prod_{i=1}^{d}\mu_i(H_i) $$

Théorème de Fubini : $f: E_1 \times \dots \times E_d \to \mathbb{R}$ positive ou intégrale p/r à $\bigotimes_{i=1}^d\mu_i$ :

$$\begin{aligned} \int_{E_1 \times \dots E_d}f d\bigotimes_{i=1}^d\mu_i &= \int_{E_d} \dots\left( \int_{E_1}f(x_1, \dots, x_d) d\mu_1(x_1) \right) \dots d\mu_d(x_d) \\ &=\int_{E_{\sigma(d)}} \dots\left( \int_{E_{\sigma(1)}}f(x_1, \dots, x_d) d\mu_{\sigma(1)}(x_{\sigma(1)}) \right) \dots d\mu_{\sigma(d)}(x_{\sigma(d)}) \end{aligned} $$
$\forall \sigma \in \mathfrak{S}_d$ (l'espace des permutations de $\{1,\dots,d\}$)

Vecteurs aléatoires réels, marginales et densités

Considérons $(\Omega, \mathcal{F}, \mathbb{P})$ un espace probabilisé et :
$$ \begin{aligned} X: \Omega &\to \mathbb{R}^d\\ \omega & \mapsto (X_1(\omega_1),\dots, X_d(\omega_d)) \end{aligned} $$
un vecteur aléatoire réel. $X$ est un vecteur aléatoire réel $\Leftrightarrow \forall i$ $X_i$ est une v.a.r.

la loi de $X$ est donnée par : $ \forall H \in \mathcal{B}(\mathbb{R}^d),~ \mathbb{P}_X(H) := \mathbb{P}(X\in H)$

Si $X$ est de densité $f_X$ p/r à $\lambda_d$ alors par définition (et que $\lambda_d = \otimes_{i=1}^d\lambda$):

$\mathbb{P}_X(H) = \int_{H}f_X(x_1, \dots, x_d)dx_1 \dots dx_d$

On définit par ailleurs $\mathbb{P}_{X_i} = $ loi marginale de $X_i$. On a alors le résultat suivant :

Propriété
Si $X$ admet une densité $f_X$ alors $X_1$ admet pour densité
$$f_{X_1}(x_1) = \int\dots\int f_X(x_1, \dots, x_d) dx_2 \dots dx_d $$

Preuve: cas $d=2$

Application de Fubini : Indépendance (1/2)

Définition [indépendance]
On dit que $X_1, \dots, X_d$ sont indépendantes ssi $\forall H_1 \in \mathcal{E_1}, \dots, H_1 \in \mathcal{E_d}$ les évènements $\{X_1 \in H_1\}, \dots, \{X_1 \in H_d\}$ sont indépendants :
$$ \mathbb{P}(X_1 \in H_1, \dots, X_d \in H_d) = \prod_{i=1}^{d} \mathbb{P}(X_i \in H_i) $$

On note $X_1 \perp X_2 \Leftrightarrow X_1$ et $X_2$ indépendants. On a les résultats suivants :

Propriétés
Les assertions suivantes sont équivalentes avec $X=(X_1, \dots, X_d)$ et $(h_i)_{i\in \{1, \dots, d\}}$ mesurables telle que $h_i(X_i) \geq 0$ ou intégrables :
  1. $X_1 \perp \dots \perp X_d$
  2. $\mathbb{P}_X = \bigotimes_{i=1}^d \mathbb{P}_{X_i}$
  3. $\mathbb{E}[\prod_{i=1}^d h_i(X_i)] = \prod_{i=1}^{d} \mathbb{E}[h_i(X_i)]$

Application de Fubini : Indépendance (2/2)

On déduit des résultats précédents un corollaire important :
Corollaire
$X_1 \perp X_2 \implies \mathrm{Cov}(X_1, X_2) = 0$

La réciproque est fausse. Soit $X \perp Y$ et $Z=XY$. Alors $X \not\perp XY$ et $\mathrm{Cov}(X,Z) = \mathbb{E}[X^2Y] = \mathbb{E}[h(X)Y] = 0$ car $X \perp Y$

Deux autres résultats utiles (preuve dans le poly) :
Propriétés
On a :
  1. $X_1 \perp \dots \perp X_d \Leftrightarrow F_X(x_1, \dots, x_d) = \prod_{i=1}^{d} F_{X_i}(x_i)$
  2. Si $X$ admet une densité $f_X$ alors :
    $$ X_1 \perp \dots \perp X_d \Leftrightarrow f_X(x_1, \dots, x_d) = \prod_{i=1}^{d} f_{X_i}(x_i) $$

VI - Changement de Variables

Position du problème, Méthode de la fonction muette

Soit $X$ vecteur aléatoire dans $\mathbb{R}^d$ tel que:
  • $X(\Omega)\subset U \subset \mathbb{R}^d$ où $U$ est un ouvert
  • $X$ admet pour densité $f_X$ par rapport à $\lambda_d$ (mesure de Lebesgue sur $\mathbb{R}^d$)
  • $Y:=\phi(X)$ avec $\phi$ une fonction borélienne sur $\mathbb{R}^d$
Question : Comment obtenir, quand-elle existe, la densité $f_Y$ de $Y$ p/r à $\lambda_d$ ?
Calculons $\mathbb{E}(h(Y)) = \int_{U \subset \mathbb{R}^d} (h\circ \phi)\times f_X d\lambda_d $ avec $h$ positive définie sur $\mathbb{R}^d$. Supposons que l'on arrive à écrire $\mathbb{E}(h(Y))$ sous la forme $\int_{V \subset \mathbb{R}^d} h\times f_Yd\lambda_d$. Si on pose alors $h=\bold{1}_{H}$ on obtient :
$$ \mathbb{E}(\bold{1}_{\{Y \in H\}}) = \mathbb{P}(Y \in H) = \int_{H \subset \mathbb{R}^d} f_Yd\lambda_d \implies f_Y \text{ densité de } Y \text{ par rapport à } \lambda_d. $$
$\rightarrow$ Cette procédure s'appelle la méthode de la fonction muette. Elle se résume par :
  1. Considérer une fonction $h$ positive et définie sur $\mathbb{R}^d$
  2. écrire $\mathbb{E}(h(Y)) = \int_{U \subset \mathbb{R}^d} (h\circ \phi)\times f_X d\lambda_d = \dots = \int_{V \subset \mathbb{R}^d} h\times f_Yd\lambda_d$
  3. La fonction $f_Y$ trouvée précédemment est la densité de $Y$ p/r à $\lambda_d$

Les $\dots$ dans ii. Sont l'objet du changement de variable.

Jacobien et Difféomorphisme

Rappelons quelques notions d'analyses avec $U,V$ deux ouverts de $\mathbb{R}^d$ et $\phi:U \to V$ telle que $\forall x \in U: \phi(x) = (\phi_1(x),\dots, \phi_d(x))$.
Définition [Jacobienne et Jacobien]
Pour $\phi$ de classe $\mathcal{C}^1$ (les dérivées partielles existent et sont continues) la jacobienne est définie par :
$\tiny{J_{\phi}(x)=\left(\begin{array}{ccc} \frac{\partial\phi_{1}}{\partial x_{1}}\left(x\right)\\ & \vdots\\ \dots & \frac{\partial\phi_{i}}{\partial x_{j}}\left(x\right) & \dots\\ & \vdots\\ & & \frac{\partial\phi_{d}}{\partial x_{d}}\left(x\right) \end{array}\right)}$
Le jacobien de $\phi$ en $x$ est alors $|J_{\phi}|(x)=\det(J_{\phi}(x))$

$\rightarrow$ $\phi$ bijective, de classe $\mathcal{C}^1$ et d'inverse de classe $\mathcal{C}^1$ est un $\mathcal{C}^1$- difféomorphisme.
$\rightarrow$ De plus : $\phi$ de classe $\mathcal{C}^1$ est un difféomorphisme $\Leftrightarrow \forall x, |J_{\phi}|(x) \neq 0$ et alors :

$$J_{\phi^{-1}} = \frac{1}{J_\phi \circ \phi^{-1}} \qquad \left( J_{\phi^{-1}}(u) = [J_\phi]^{-1}(x)_{\mid x = \phi^{-1}(u) } \right) \implies |J_{\phi^{-1}}| = \frac{1}{|J_\phi| \circ \phi^{-1}}$$

Théorème de changement de variables

Théorème [Changement de variables]
Soit $U,V \subset \mathbb{R}^d$ deux ouverts et $\phi:U\to V$ un difféomorphisme. Pour toute fonction $f$ positive borélienne et définie sur V,
$$ \int_{U}f \circ \phi = \int_{V}\frac{f}{||J_{\phi}| \circ \phi^{-1}|} $$

Application : pour la méthode de la fonction muette, on a alors :

$$ f_Y = \frac{f_X\circ \phi^{-1}}{||J_{\phi}|\circ \phi^{-1}|}\bold{1}_{V} = f_X\circ \phi^{-1}\times |\det(J_{\phi^{-1}})|\bold{1}_{V} $$

En particulier on a :
Propriété
Si on a un vecteur aléatoire $Y=AX+B$ avec $A$ une matrice inversible et $B$ un vecteur déterministe alors :
$$ f_Y(y)=\frac{1}{|\det(A)|}f_X(A^{-1}(y-B)) $$

Preuve : Au tableau

VII - Fonction Caractéristique

Motivations et prérequis

La fonction caractéristique est un outils très utile en pratique pour :
  • Déterminer la loi de somme de v.a. indépendantes
  • Développer le théorème central limite
  • Calculer des moments de tout ordre ($\mathbb{E}(X^p)$ quand ils existent
  • Développer la théorie autour des vecteurs Gaussiens

Au préalable, nous définissons les fonctions mesurables à valeur dans $\mathbb{C}$ comme suit :

  • $f=f_\Re + if_\Im$ à valeurs dans $\mathbb{C}$ est mesurables $\Leftrightarrow f_\Re, f_\Im$ sont mesurables
  • $f$ est intégrable p/r $\mu \Leftrightarrow \int|f|d\mu < \infty $ et alors :
    $$ \int fd\mu := \int f_\Re d\mu + i \int f_\Im d\mu $$
  • Le théorème de convergence dominée reste valable en remplaçant la valeur absolue par le module d'un nombre complexe (linéarité etc.)

Enfin, pour deux vecteurs colonnes $\bold{a},\bold{b} \in \mathbb{R}^d,$ on définit le produit scalaire $<.,.>$ comme suit :
$$ <\bold{a},\bold{b}> = \sum_{k=1}^d a_kb_k = \bold{a}^\top \bold{b} $$

Définition et premières propriétés

On considère $(\mathbb{R}^d, \mathcal{B}(\mathbb{R}^d), \mu)$ un espace mesurable avec $\mu$ finie ou de probabilité.
Définition [Fonction Caractéristique]
La fonction caractéristique de $\mu$ est définie par
$$ \forall \bold{t} \in \mathbb{R}^d, \varphi_{\mu}(\bold{t} ) = \int e^{i<\bold{t}, \bold{x}>}d\mu(\bold{x}) $$

Remarque:
$ \rightarrow \varphi$ est bien définie puisque $\mu$ est finie ou de probabilité et $|e^{i<\bold{t}, \bold{x}>}| = 1$
$\rightarrow$ si $\mu$ est de probabilité, $\forall \bold{t} \in \mathbb{R}^d, |\varphi_\mu(t)| \leq \int |e^{i<\bold{t}, \bold{x}>}|d\mu(\bold{x}) = 1$

On a de plus la propriété suivante :
Propriété
Soit $\mu$ de probabilité. Alors $\varphi_{\mu}$ est continue.

Preuve : Au tableau.

Fonction caractéristique d'un vecteur aléatoire

Soit $X$ un vecteur aléatoire réel sur $(\Omega, \mathcal{F}, \mathbb{P})$ de dimension $d$ et $\mathbb{P}_{X}$ sa loi.
Définition
La fonction caractéristique d'un vecteur aléatoire réel $X$ noté $\varphi_{X}$ (rarement $\varphi_{\mathbb{P}_X})$ est donnée par
$$ \forall \bold{t} \in \mathbb{R}^d, \varphi_{X}(\bold{t} ) = \int e^{i<\bold{t}, \bold{x}>}d\mathbb{P}_{X}(\bold{x}) = \mathbb{E}(e^{i<\bold{t}, X>}) $$
Si $X$ admet p/r à $\lambda_d$ une densité $f$ pour tout $\bold{x} = (x_1, \dots, x_d) \in \mathbb{R}^d$. Alors :
$$ \forall \bold{t} \in \mathbb{R}^d, \varphi_{X}(\bold{t} ) = \int e^{i<\bold{t}, \bold{x}>}f(x_1,\dots, x_d)dx_1, \dots, dx_d $$

Ainsi, pour un vecteur aléatoire admettant une densité, $\varphi_X$ peut-être vu comme la transofrmée de Fourier de $f(-x)$.

Exemple : Soit $X:\Omega \to \mathbb{R}^d$ et $Y=AX+\bold{b}, A\in \mathbb{R}^ {m\times d}, \bold{b} \in \mathbb{R}^m$. Pour $\bold{u} \in \mathbb{R}^m$ :

$$\begin{aligned} \varphi_{Y}(\bold{u}) &=\mathbb{E}(e^{i<\bold{u}, Y>}) =\mathbb{E}(e^{i<\bold{u}, AX+\bold{b}>}) = \mathbb{E}(e^{i< A^{\top} \bold{u}, X >})e^{i<\bold{u}, \bold{b}>} \\ \end{aligned} $$
Soit $\boxed{\varphi_{AX+\bold{b}}(\bold{u}) =\varphi_{X}(A^\top \bold{u})e^{i< \bold{u}, \bold{b}>}}$

Caractérisation de la loi

On a le théorème suivant (admis) :
Théorème [Caractérisation de la loi]
Soient $\mu,\nu$ deux mesures de probabilités sur $\mathbb{R}^d$. $\varphi_\mu = \varphi_\nu \Leftrightarrow \mu = \nu$

On peut en déduire le corollaire suivant :

Corollaire
Soit $X = [X_1, \dots, X_d]^\top$. alors :
$$ X_1 \perp \dots \perp X_d \Leftrightarrow \forall \bold{t} = (t_1, \dots, t_d) \in \mathbb{R}^d, \varphi_X(\bold{t}) = \prod _{i=1}^{d} \varphi_{X_i}(t_i)$$

Preuve : Au tableau.
Exercice : Soit $X \sim \mathcal{N}(0,1)$

  • $\forall t \in \mathbb{R}$ montrer que $\varphi^\prime_{X}(t) = -t \varphi_X(t)$
  • Résoudre l'équation précédente et en déduire que $\varphi_{X}(t) = e^{-t^2/2}$
  • En remarquant que $Z \sim \mathcal{N}(m, \sigma^2) \Leftrightarrow Z = \sigma X + m$ montrer que
    $\varphi_{Z}(t) = e^{itm}e^{-\sigma^2t^2/2}$

Calculs des moments (1/2)

Soit $X: \Omega \to \mathbb{R}^d$ un vecteur aléatoire réel d'ordre $p \in \mathbb{N}^\star$ (i.e. $\mathbb{E}(|X_i|^p) < \infty, \forall i$)
Propriété
On a les résultats suivants :
$\rightarrow$ Si $d=1$, alors $\varphi_X$ est de classe $\mathcal{C}^p$ et la dérivée p-ème $\varphi_X^{(p)}$ de $\varphi_X$ vérifie :
$$ \varphi_X^{(p)}(t) = \mathbb{E}[i^p X^p e^{i }]$$
En particulier :
$\boxed{\mathbb{E}[X^p] = \frac{\varphi_X^{(p)}(0)}{i^p}}$
$\rightarrow$ Si $d>1$, alors pour $X=[X_1, \dots, X_d]^\top, t=[t_1, \dots, t_d]$ et $i_1, \dots i_d \in \llbracket 1,d \rrbracket$ :
$$\frac{\partial^p \varphi_X}{\partial t_{i_1} \dots \partial t_{i_p}} (\bold{t}) = \mathbb{E}(i^p X_{i_1} \dots X_{i_p}e^{i <\bold{t}, X>})$$
En particulier :
$\boxed{\mathbb{E}[X_{i_1} \dots X_{i_p}] = \frac{\frac{\partial^p \varphi_X}{\partial t_{i_1} \dots \partial t_{i_p}} (\bold{0})}{i^p}}$

Preuve : Rapide esquisse pour $d=p=1$

Calculs des moments (2/2)

Application : Soit $X \sim \mathcal{N}(0,1)$

Alors:
  • $\mathbb{E}[X] = \varphi_X^\prime(0)/i = -0 \times e^{-0^2 /2} /i = 0 $
  • De même on a $\mathbb{E}[X^2] = 1, \mathbb{E}[X^3]=0,\mathbb{E}[X^4]=2$ etc...

VIII - Vecteurs Gaussiens

Espérance/Covariance d'un vecteur aléatoire (1/2)

On considère $X=(X_1, \dots, X_d):\Omega \to \mathbb{R}^d$ un vecteur aléatoire réel.

Afin de définir les vecteurs Gaussiens, nous allons d'abord définir l'espérance et la covariance d'un vecteur aléatoire :

Définition [Espérance et covariance]
On définit l'espérance d'un vecteur $X$ comme :
$$ \mathbb{E}[X] = (\mathbb{E}[X_1], \dots, \mathbb{E}[X_d])^\top $$
La covariance dun vecteur $X$ est définie comme la matrice suivante :
$$ \mathrm{Cov}(X) = \left(\begin{array}{cccc} \mathrm{Cov}\left(X_{1},X_{1}\right) & \dots & \dots & \mathrm{Cov}\left(X_{1},X_{d}\right)\\ \vdots & \vdots & \vdots & \vdots\\ \mathrm{Cov}\left(X_{d,}X_{1}\right) & \dots & \dots & \mathrm{Cov}\left(X_{d,}X_{d}\right) \end{array}\right) $$

Remarques :

  • $\mathbb{E}(AX+b) = A\mathbb{E}(X) + b$
  • $\mathrm{Cov}(X)$ est symétrique ($\mathrm{Cov}(X,Y) = \mathrm{Cov}(Y,X)$)
  • Si $X_1, \dots, X_d$ sont décoréllées alors $\mathrm{Cov}(X)=\mathrm{Diag}(\{\mathrm{Var}(X_i)\}_{i \in \llbracket 1, d\rrbracket})$

Espérance/Covariance d'un vecteur aléatoire (2/2)

Nous donnons quelques propriétés sur la covariance. $X_c := X - \mathbb{E}(X)$ désigne le vecteur recentré.
Propriétés
On a les résultats suivants sur la covariance :
  1. $\mathrm{Cov}(X) = \mathbb{E}(X_cX_c^\top)$
  2. $\mathrm{Cov}(AX+b) = A\mathrm{Cov}(X)A^\top$
  3. $\mathrm{Cov}(X)$ est semi-définie positive
  4. $X \perp Y \implies \mathrm{Cov}(X+Y) = \mathrm{Cov}(X) + \mathrm{Cov}(Y)$

Preuve: Au tableau.

Vecteur Gaussien : Définition et Premières Propriétés

Rappel : La loi gaussienne $\mathcal{N}(m, \sigma^2)$ admet pour densité $f(x)=\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(x-m)^2}{2\sigma^2}}$ et fonction caractéristique $\varphi (t) = e^{itm}e^{-\frac{\sigma^2t^2}{2}}$.

Définition [vecteur gaussien]
On dit que $X:\Omega \to \mathbb{R}^d$ est un vecteur gaussien (VG) si $\forall \bold{a} \in \mathbb{R}^d, <\bold{a}, X>$ suit une loi gaussienne.

On a alors les propriétés suivantes :

Définition [vecteur gaussien]
On a les résultats suivants pour $X=(X_1, \dots, X_d)$ une VG :
  1. $\forall k \in \llbracket 1,d \rrbracket, X_k$ est une variable gaussienne
  2. Tout sous vecteur $(X_{i_1}, \dots, X_{i_m})$ est gaussien

Preuve : Au tableau.

Fonction Caractéristique et Indépendance

La propriété suivante nous permet de caractériser les vecteur Gaussiens.
Propriété
Les assertions suivantes sont équivalentes :
  1. $X$ est un VG d'espérance $\bold{m}\in \mathbb{R}^d$ et de covariance $\mathrm{Cov}(X) = \Sigma \in \mathbb{R}^{d\times d}$
  2. $\forall t \in \mathbb{R}^d, \varphi_{X}(\bold{t}) = e^{i<\bold{t},\bold{m}>}e^{\frac{-\bold{t}^\top\Sigma\bold{t}}{2}}$

On écrira alors $X \sim \mathcal{N}_{d}(\bold{m}, \Sigma)$

Preuve : Au tableau.

On a alors le résultat suivant sur l'indépendance de variables gaussiennes :
Propriété
Les assertions suivantes sont équivalentes avec $\forall k \in \llbracket 1, d\rrbracket, X_k \sim \mathcal{N}(m_k,\sigma_k^2)$ :
  1. $X_1 \perp \dots \perp X_d$ et sont des variables gaussiennes
  2. $X=(X_1,\dots,X_d) \sim \mathcal{N}_{d}\left(\bold{m},\mathrm{Diag}[\{\sigma_k^2\}_{k \in \llbracket 1, d \rrbracket}]\right)$ avec $\bold{m}=(m_1, \dots,m_d)^\top$

Preuve : Au tableau.

Transformation Affine

Théorème
Si $X \sim \mathcal{N}_d (\bold{m}, \Sigma)$ alors $AX+\bold{b} \sim \mathcal{N}_d(A\bold{m} + \bold{b}, A\Sigma A^\top)$

Preuve : Au tableau.

Exemple : Exercice 41

Densité d'un vecteur Gaussien

On a le résultat suivant :
Propriété
Si $X\sim\mathcal{N}_{d}(\bold{m},\Sigma)$ avec $\Sigma$ définie positive (et donc $\Sigma$ inversible). Alors, $X$ admet pour densité :
$$ f_X(\bold{x}) = \frac{1}{\sqrt{(2\pi)^d \det \Sigma}}\exp\left(-\frac{1}{2}(\bold{x}-\bold{m})^\top\Sigma^{-1}(\bold{x}-\bold{m})\right) $$

Preuve : Au tableau.

Remarque : Si $\Sigma$ n'est pas inversible, alors $X$ n'admet pas de densité p/r à $\lambda_d$.

IX - Probabilité et Espérance Conditionnelle

Motivations et théorème de Radon-Nikodym

$\mathbb{P}_{Y \mid X=x} (G) \overset{\text{def}}{=} \mathbb{P}(Y\in G \mid X=x) \overset{?}{=} \frac{\mathbb{P}(Y\in G, X=x)}{\mathbb{P}(X=x)}$

Problème : $\mathbb{P}(X=x)=0$ pour une variable à densité donc pas de sens.
Intuitivement, on aimerait écrire $\mathbb{P}_{X,Y} (H \times G) = \int_H f_{Y \mid X=x}(G)d\mathbb{P}_X(x)$. C'est à dire que $\mathbb{P}_{X,Y} $ admette une densité par rapport à $\mathbb{P}_X$. Un théorème fondamental en théorie de la mesure va nous permettre de construire une telle densité :

Théorème [Radon-Nikodym]
Soient $\mu$ et $\nu$ deux mesures $\sigma$-finies sur $(F, \mathcal{F})$. Alors :
$\mu$ admet une densité p/r à $\nu \Leftrightarrow (\forall A \in \mathcal{F}, \mu_{A} = 0 \implies \nu_{A}=0)$ est vérifiée.

Remarque : La propriété $(\forall A \in \mathcal{F}, \mu_{A} = 0 \implies \nu_{A}=0)$ se dit aussi "$\mu$ est absolument continue p/r à $\nu$" et on note $"\mu \ll \nu"$

Probabilité conditionnelle

On considère :
  • $(\Omega, \mathcal{F}, \mathbb{P})$ un espace de probabilité, $(E, \mathcal{E}), (F, \mathcal{G})$ des espaces mesurables
  • $X:\Omega \to E, Y:\Omega \to F$ deux v.a.
  • $\mathbb{P}_{X,Y}, \mathbb{P}_{X}, \mathbb{P}_{Y}$ la loi jointe et ses marginales respectivement

Le théorème précédent entraîne directement que $H \mapsto \mathbb{P}_{(X,Y)}(H \times G)$ est absolument continue par rapport à la mesure $\mathbb{P}_X$. D'où la définition suivante :
Définition [Probabilité conditionnelle]
$\forall G \in \mathcal{G}, \mathbb{P}_{Y \mid X=x}(G)$ est la fonction de $x$, définie de manière unique $\mathbb{P}_X$- p.p., telle que
$$ \forall H \in \mathcal{E}, \mathbb{P}_{X,Y}(H \times G) = \int_H \mathbb{P}_{Y \mid X=x}(G)d\mathbb{P}_{X}(x) $$
On appelle $G \mapsto \mathbb{P}_{Y \mid X=x}(G)$ la loi conditionnelle de $Y$ sachant $X=x$.

Propriétés

On a les résultats suivants :
Propriétés
  1. Si $X \perp Y$ alors $\mathbb{P}_{Y \mid X=x} = \mathbb{P}_Y$
  2. Si $Y=f(X)$ alors pour toute application $f$ mesurable $\mathbb{P}_{Y \mid X=x} = \delta_{f(x)}$

Preuve : Au tableau .

Vecteurs aléatoires à densité

On suppose que :
  • $(X,Y)$ admet une densité $f_{X,Y}(x,y)$ p/r à $\mu \otimes \nu$
  • $\mu,\nu$ sont respectivement des mesures de réferences sur $E$ et $F$
  • $X$ admet une densité $f_{X}$ p/r à $\mu$
  • $d\mathbb{P}_{X,Y}(x,y) = f_{X,Y}(x,y)d\mu(x)d\nu(y)$

On définit la densité conditionnelle comme suit
Définition [Densité conditionnelle]
La densité conditionnelle de $Y$ sachant $X=x$ est ($\forall y$ et $\forall x~ \mathbb{P}_X$- p.p. :) :
$f_{Y \mid X=x}(y) = \frac{f_{X,Y}(x,y)}{f_X(x)}$
On a alors la relation suivante entre la loi conditionnelle et la densité de probabilité :
Théorème
$\forall G \in \mathcal{G}, \forall x ~ \mathbb{P}_X$-p.p., $\mathbb{P}_{Y \mid X =x} (G) = \int_{G} f_{Y \mid X =x}(y) d\nu(y)$

Preuve : Au tableau.

Exemple avec des variables aléatoires discrètes

On pose :
  • $(X,Y)$ vecteur aléatoire discret à valeurs dans $\mathbb{N}^2$
  • $(X,Y)$ admet une densité $f_{X,Y}(x,y)$ p/r à $\mu \otimes \nu = \sum_{(x,y) \in \mathbb{N}^2}\delta(x,y)$
    $\quad \rightarrow$ on sait d'ailleurs que $f_{X,Y}(x,y) = \mathbb{P}(X=x, Y=y)$
  • $X$ admet une densité $f_{X}(x)$ p/r à $\mu = \sum_x \delta_{x}$ avec $f_X(x) = \mathbb{P}(X=x)$
  • Par conséquent on a :
    $$ f_{Y\mid X=x}(y) = \frac{f_{X,Y}(x,y)}{f_X(x)} = \frac{\mathbb{P}(X=x, Y=y)}{\mathbb{P}(X=x)} := \mathbb{P}(Y=y \mid X=x) $$

Exemple mixte : formule de Bayes (1/2)

On suppose:
  • $X \sim \beta(a,b)$ une loi beta de densité $f_X(x) = \frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}x^{a-1}(1-x)^{b-1}\bold{1}_{[0,1]}(x)$
  • $Y$ une variable aléatoire discrète sur $\{0,1\}$
  • On suppose que $\mathbb{P}_{Y\mid X=x} = x \delta_{1} + (1-x)\delta_0$ pour $x \in [0,1]$
Si on analyse, $Y\mid X=x$ revient à prendre $x$ issue d'une loi beta sur $[0,1]$ et de tirer une Bernoulli avec probabilité $x$ de succès. Soit $Y\mid X=x \sim \mathcal{B}(x)$.

Quelle est la loi de $X \mid Y=y$ ?

  • $(X,Y)$ admet une densité $f_{X,Y}(x,y)$ p/r à $(\mu=\lambda) \otimes (\nu = \delta_0 + \delta_1)$
  • $f_X(x)f_{Y \mid X=x}(y) = \frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}x^{a-1}(1-x)^{b-1}\bold{1}_{[0,1]}(x) x^{y}(1-x)^{1-y} = f_{X,Y}(x,y)$
  • Donc : $f_{X \mid Y=y}(x) = \frac{f_{X,Y}(x,y)}{f_Y(y)}= \underbrace{\frac{\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}}{\int f_{X,Y}(x,y)dx}}_{:=C_y}x^{a-1+y}(1-x)^{b-y} \bold{1}_{[0,1]}(x) =C_y x^{a-1+y}(1-x)^{b-y} \bold{1}_{[0,1]}(x)$

Exemple mixte : formule de Bayes (2/2)

Pour que $\int f_{X \mid Y=y}(x)dx = 1$, il faut que $C_y = \frac{\Gamma(a+b+1)}{\Gamma(a+y)\Gamma(b+1-y)}$

Conclusion : $X\mid Y=y \sim \beta(a+y, b+1-y)$

Remarque : On avait $f_{Y\mid X=x}$ et on voulait $f_{X|Y=y}$. La formule employé s'appelle la formule de Bayes :

$$ \boxed{f_{X \mid Y=y}(x) = \frac{f_{Y\mid X=x}(y)f_X(x)}{f_Y(y)}} $$

Espérance conditionnelle

Soit $X$ une v.a. et $Y$ une v.a.r. telle que $Y \geq 0$ ou $\mathbb{E}(|Y|) < \infty$.
Définition [Espérance conditionnelle]
$x \mapsto \mathbb{E}(Y \mid X=x)$ est l'unique ($\mathbb{P}_X$ - pp) fonction mesurable telle que :
$\forall H \in \mathcal{E}, \mathbb{E}(Y\bold{1}_{H}(X)) = \int_{H} \mathbb{E}(Y \mid X=x)d\mathbb{P}_X(x)$

Preuve: cf. Poly (Radon-Nikodym sur la mesure $H \to \mathbb{E}(Y\bold{1}_{H}) $)

Remarque : si on prend $\bold{1}_{H} = 1$ alors on obtient $\boxed{\mathbb{E}(Y) = \int \mathbb{E}(Y \mid X=x)d\mathbb{P}_X(x)}$

Théorème de transfert généralisé et corollaires

On peut alors montrer que (cf. poly pour les preuves) :
Théorème et corollaires [de transfert généralisé]
$\rightarrow \forall \psi(x,y)$ mesurable tq $\mathbb{E}|\psi(x,y)| < \infty$ on a :
$$ \mathbb{E}(\psi(X,Y) \mid X=x) = \int \psi(x,y)d\mathbb{P}_{Y \mid X=x}(y) \quad \texttt{(Théorème de transfert)} $$
$\rightarrow $ En particulier pour $\psi(x,y) = y$ on a :
$$ \mathbb{E}(Y \mid X=x) = \int yd\mathbb{P}_{Y \mid X=x}(y) $$
$\rightarrow$ Dans le cas où $(X,Y)$ de densité $f_{X,Y}$ p/r à $\mu \otimes \nu$ :
$$ \mathbb{E}(\psi(X,Y) \mid X=x) = \int \psi(x,y)f_{Y \mid X=x}(y)d\nu(y) $$
$\rightarrow$ Si $g$ mesurable et $\mathbb{E}|g(X)Y| < \infty$ alors :
$$ \mathbb{E}(g(X)Y \mid X=x) = g(x)\mathbb{E}(Y \mid X=x) $$
Si $X\perp Y$ alors :
$$ \mathbb{E}(Y \mid X=x) = \mathbb{E}(Y) $$