Diaporama résumant le contenu du cours (démonstration au tableau)
Travaux dirigés sur des exercices (à la maison ou traité directement en cours)
I - Probabilités discrète
Rappels & notations (1/2)
$\Omega$: ensemble de réalisation possible (parfois appelé Univers)
$\quad \rightarrow$ durée de vie d'une population (continue, $\Omega = \mathbb{R}_{+}$)$ \\ $
$\quad \rightarrow$ comptage d'objet défaillant durant une période donnée ($\Omega = \mathbb{N}$)$\\$
Dans cette 1$^{\mathrm{ère}}$partie, $\Omega$ sera au plus égal à $\mathbb{N}$
$\omega \in \Omega$: épreuve, issue
$\quad \rightarrow$ représente le résultat d'un(e) phénomène/expérience aléatoire.
$A \subset \Omega$ ou $A \in \mathcal{P}(\Omega)$ (partie de $\Omega$): évènement aléatoire
Exemple (lancé de dés) :
Considérons 2 dés et l'évènement $A=\{$ Faire au moins 10 après un lancer de 2 dés$\}$.
On a l'ensemble $\Omega=\left\{1,\dots,6\right\} \times \left\{1,\dots,6\right\}$ et
$\mathbb{P}(\cup_{i}A_i) \leq \sum_{i} \mathbb{P}(A_i) \quad ~~~ (\texttt{Borne de l'union})$
Si
$\qquad \rightarrow A_n \uparrow A$, alors $\mathbb{P}(A) = \lim_{n \to +\infty} \mathbb{P}(A_n) \\$
$\qquad \rightarrow A_n \downarrow A$, alors $\mathbb{P}(A) = \lim_{n \to +\infty} \mathbb{P}(A_n) \\$
Si $\forall n \in \mathbb{N}^{\star}, \mathbb{P}(A_n) =1$ alors $\mathbb{P}(\bigcap_{n=1}^{\infty} A_n) = 1$
Probabilité conditionnelle
Proba conditionnelle de $A$ sachant $B \rightarrow$ quantifie l'occurence $A$ sachant que $B$ s'est produit.
Définition (Probabilité conditionnelle) :
Soit $\mathbb{P}$ une mesure de probabilité et $B$ tel que $\mathbb{P}(B)>0$.
On définit la probabilité conditionnelle de $A$ sachant $B$ comme suit : $\\$
$\mathbb{P}(A\mid B) =\dfrac{\mathbb{P}(A \cap B)}{\mathbb{P}(B)}$
Remarque : $A \mapsto \mathbb{P}(A \mid B)$ est une mesure de probabilité (vérifier les axiomes)
Propriétés :
Si on considère $(B_i)_{i \in I}$ une partition de $\Omega$ alors: $\\$
Exemple : $A \perp \! \! \! \perp B \perp \! \! \! \perp C
\Leftrightarrow
\begin{cases}
\mathbb{P}(A \cap B) &= \mathbb{P}(A)\mathbb{P}(B); \\
\mathbb{P}(A \cap C) &= \mathbb{P}(A)\mathbb{P}(C); \\
\mathbb{P}(A \cap B \cap C) &= \mathbb{P}(A)\mathbb{P}(B)\mathbb{P}(C).
\end{cases}
$
Variable aléatoire
$\Omega$ et $E$ sont des espaces discrets.
Définition (Variable aléatoire)
Une variable aléatoire (v.a.) $X$ sur $E$ est une fonction $X:\Omega \to E$.
$X(\omega)$ est parfois appelé une réalisation de $X \\$
$\quad \rightarrow$ elle dépend du résultat d'une expérience. $\\ \\$
On s'intéresse aux évènements suivants associés à une v.a. $X~: \\$
$A=X^{-1}(\{x\}) \rightarrow $"La variable $X$ prend la valeur $x$"
Soit $X$ et $Y$ deux v.a; de $\Omega$ dans $E$ de lois respectives $\mathbb{P}_{X}$ et $\mathbb{P}_{Y}$. La loi du couple $(X,Y)$,
notée $\mathbb{P}_{(X,Y)}$, s'appelle la loi jointe de $X$ et $Y$.
Les lois de $\mathbb{P}_{X}$ et $\mathbb{P}_{Y}$ sont respectivement les marginales de $X$ et $Y$.
La marginale peut être retrouvée à partir de la loi jointe via la relation suivante :
Propriété
$\forall x \in E, \mathbb{P}_{X}(x) = \sum_{y \in E} \mathbb{P}_{(X,Y)}(x,y)$.
Preuve : Appliquer la formule des probabilités totales sur les ensembles $\{Y=y\}$ où $y \in E$.
Indépendance de variables aléatoires
Définition (Indépendance de v.a.)
Deux v.a. $X$ et $Y$ sont dites indépendantes si pour tout $A,B \subset E$ on a l'indépendance des évènements
$\{X \in A\}$ et $\{Y \in B\}$. C'est-à-dire :
$\forall A,B \subset E, \underbrace{\mathbb{P}(\{X \in A\} \cap \{Y \in B\})}_{=\mathbb{P}(X \in A,~ Y \in B)}=\mathbb{P}(X \in A)\mathbb{P}(X \in B)$
Remarque: On retrouve parfois la notation $\mathbb{P}(X\in A, Y\in B) = \mathbb{P}_{(X,Y)}(A \times B)$.
$\\$ En effet $$
\begin{aligned}
\mathbb{P}(X\in A, Y\in B) &= \mathbb{P}(\{\omega \in \Omega \mid X(\omega)\in A, Y(\omega)\in B\})\\
&= \mathbb{P}(\{\omega \in \Omega \mid (X(\omega),Y(\omega))\in A\times B\})\\
&= \mathbb{P}_{(X,Y)}(A \times B)
\end{aligned} $$
On définit l'égalité $\mathbb{P}$- presque partout ($\mathbb{P}$-p.p.) c'est à dire avec probabilité 1 ($X=a ~\mathbb{P}$-p.p. veut dire $\mathbb{P}(X=a) = 1$)
Propriétés
Soit $X$ et $Y$ deux v.a. dans $E$ telles que $\mathbb{E}(|X|) < +\infty$ et $\mathbb{E}(|Y|) < +\infty, \alpha, \beta \in \mathbb{R}$ et $a \in E$. Alors :
$\hspace{-2em} \mathbb{E}(\alpha X + \beta Y)$ est bien définie et $\mathbb{E}(\alpha X + \beta Y) = \alpha\mathbb{E}(X) + \beta\mathbb{E}(Y)$
$\hspace{-2em} \text{Si } X \geq 0~\mathbb{P}-$ p.p. alors $\mathbb{E}(X) \geq 0$
$\hspace{-2em}\text{Si } X \geq 0~\mathbb{P}-$ p.p. et $\mathbb{E}(X) = 0$ alors $X=0~\mathbb{P}-$ p.p.
Si $\mathrm{Cov}(X,Y)=0$ $X,Y$ sont dits décorrélées.
Rappelons quelques propriétés importantes parmis celles du polycopié :
Propriétés
Soit $X,Y$ deux v.a. d'ordre $2$. Alors:$\\$
$ \hspace{-3em} \text{Les résultats élémentaires de Prop. 1.20. sur la Variance/Covariance}$
$\hspace{-3em} $ $X \perp \! \! \! \perp Y \implies \mathrm{Cov}(X,Y) =0$ (⚠ le contraire est généralement faux)
$\hspace{-3em} $ $X$ et $Y$ ont mêmes lois $\implies$ leurs moments sont égaux.
II - Théorie de la Mesure
Notion de mesure et de tribu (Exemple sur $\mathbb{R}$)
Intuitivement, on aimerait une application $\mu:\mathcal{P }(\mathbb{R}) \to [0,+\infty]$ telle que :
Si $A, B \subset \mathcal{P }(\mathbb{R})$ sont disjoints alors $\mu(A \cup B) = \mu(A) + \mu(B)$
Plus généralement, si $(A_i)_i$ sont disjoints alors $\mu(\cup_i A_i) = \sum_i \mu(A_i)$
$\mu(\emptyset) = 0 \\$
$\mu([a,b]) = b-a$
Cela définit une mesure $\mu$ incluant notion de longueur. Cependant, une telle mesure n'existe pas sur $\mathcal{P}(\mathbb{R})$.
Nous allons alors restreindre $\mathcal{P}(\mathbb{R})$ sur un sous ensemble $E$.
Intuitivement, $E$ doit respecter certaines contraintes pour définir une mesure comme
L'ensemble vide doit être dans $E$
Si $A$ est dans $E$ alors son complémentaire l'est aussi
Une union d'ensemble dans $E$ est toujours dans $E$
$ \\ \rightarrow$ Les trois axiomes précédents définissent une tribu.
Mesure de probabilité sur $\mathbb{R}$
Dans le cadre de ce cours, on aimerait également pour une v.a. $X: \Omega \to \mathbb{R}$ définir $P_{X} = \mathbb{P}(X\in H)$ la loi de $X$.
Afin d'obtenir des lois ayant des propriétés intéressantes, il sera également aisé de restreindre $\mathcal{P}(\mathbb{R})$.
Tribus
Considerons $F$ un ensemble.
Définition [Tribu]
Une collection de sous-ensemble de $F$ notée $\mathcal{F}$ est une tribu si :
$\emptyset \in \mathcal{F}$
$A \in \mathcal{F} \implies A^{\mathsf{c}} \in \mathcal{F}~\texttt{(stabilité par passage au complémentaire)}$
Soit $\mathcal{F}$ et $\mathcal{F}^{\prime}$ deux tribus. Alors :
$\mathcal{F}$ est stable par intersection dénombrable
$\mathcal{F} \cap \mathcal{F}^{\prime}$ est une tribu   (⚠ ce n'est pas le cas pour l'union)
Preuve : esquisse au tableau Remarque :
$(F, \mathcal{F}$) est appelé espace mesurable
Tribu engendrée et tribu de Borel
Définition & Propriété [Tribu engendrée]
Soit $\mathcal{C}$ une collection d'ensembles de $F$. L'intersection de toute les tribus contenant $\mathcal{C}$ est une tribu
appelée tribu engendrée par $\mathcal{C}$ (notée $\sigma(\mathcal{C})$).
Preuve : au tableau
Donnons un exemple de tribu engendrée sur une collection de $\mathbb{R}^{d}, d\geq 1$.
Définition [Tribu de Borel]
On définit la tribu de Borel sur $\mathbb{R}$ l'ensemble $\mathcal{B}(\mathbb{R})$ ci-dessous :
$\mathcal{B}(\mathbb{R}) = \sigma\left(\{[a,b]: a < b\}\right) \quad \texttt{(tribu engendrée par les [a,b])}$
Plus généralement, on définit la tribu de Borel sur $\mathbb{R}^{d}$ comme suit :
$$
\mathcal{B}(\mathbb{R}^d) = \sigma\left(\left\{\prod_{i=1}^{d}[a_i,b_i]: \forall i \in \llbracket 1, d \rrbracket, a_i < b_i\right\}\right)
$$
Un ensemble de $\mathcal{B}(\mathbb{R}^d)$ est un "borélien"
Exemple :
$\rightarrow\{a\},~]a,b[,~]-\infty, b], ~\mathbb{Q}, ~\mathbb{R}\backslash \mathbb{Q} \in \mathcal{B}(\mathbb{R})$
Autres définition de la tribu de Borel
Propriétés
On a les définitions équivalentes suivantes pour $\mathcal{B}(\mathbb{R})^{d}$:
$\mathcal{B}(\mathbb{R}^{d}) = \sigma\left(\text{ouverts de }\mathbb{R}^d\right)$
Preuve du premier point au tableau
Remarque :
On parle également de la trace de $\mathcal{B}(\mathbb{R})$ sur $E$ pour un ensemble $E \subset \mathbb{R}$, noté $\mathcal{B}(E)$, et définit comme :
$$
\mathcal{B}(E) = \left\{H \cap E : H \in \mathcal{B}(\mathbb{R})\right\}
$$
Mesures
Soit $(F, \mathcal{F})$ un espace mesurable.
Définition [Mesure et espace mesuré]
Une application $\mu : \mathcal{F} \to [0,+\infty]$ est une mesure sur $(F, \mathcal{F})$ si :
$\mu(F) =1 \implies \mu$ est dite mesure de probabilité
$(F, \mathcal{F}, \mu)$ est appelé espace mesurable.
Remarque :
Les propriétés sur les mesures sont identiques, à quelques subtilités près, à celles sur les mesures de probabilités (cf. Thm 3.7)
Caractérisation de mesures sur un $\pi$-système (1/2)
Il est souvent compliqué de montrer que deux mesures coïncident sur une même tribu.
On se restreint donc à des ensembles plus simples comme les $\pi$-système :
Définition [$\pi$-système]
Un $\pi$-système $\mathcal{P}$ est une classe d'ensembles telle que $\forall P, P^{\prime} \in \mathcal{P}, P \cap P^{\prime} \in \mathcal{P}$
Exemples :
$\mathcal{P}_1=\left\{[a, b], a \leq b\right\} \cup \{\emptyset\}$ est un $\pi$-système (et $\mathcal{B}(\mathbb{R})=\sigma\left(\mathcal{P_1}\right)$).
$\mathcal{P}_2=\left\{]-\infty, a], a \in \mathbb{R}\right\}$ est un $\pi$-système (et $\mathcal{B}(\mathbb{R})=\sigma\left(\mathcal{P_2}\right)$).
On a le résultat suivant pour les mesures de probabilités sur un $\pi$-système :
Théorème
Soit $\mu,\nu$ deux mesures de probabilités sur $(F,\mathcal{F})$ et $\mathcal{P}$
un $\pi$-système tel que $\mathcal{F} = \sigma\left(\mathcal{P}\right)$ et $\mu,\nu$ coincïdent sur $\mathcal{P}$. Alors $\mu = \nu$.
Preuve : Admise (cf Annexe. Fait appel aux $\lambda$-systèmes)
Application : Fonction de répartition
La fonction de répartition est un outils très utile qui permet de caractériser les mesures de probabilités.
Nous verrons plus tard qu'elle sert également à caractériser les lois de probabilités (ces dernières étant des mesures de probas).
Définition [Fonction de répartition]
Soit $\mu$ une mesure de probabilité sur $(\mathbb{R}, \mathcal{B}(\mathbb{R}))$. La fonction :
Si $\mu$ et $\nu$ sont deux mesures de probabilités sur $(\mathbb{R}, \mathcal{B}(\mathbb{R})$ telles que $F_{\mu} = F_{\nu}$ alors $\mu = \nu$.
Preuve : au tableau.
Caractérisation de mesures sur un $\pi$-système (2/2)
Une autre catégorie de mesures plus restreinte que les mesures finies coïncident également sur les $\pi$-système : les mesures $\sigma$-finies.
Définition [Mesure $\sigma$-finie]
Une mesure $\mu$ sur $(F, \mathcal{F})$ est $\sigma$-finie sur $\mathcal{P}$ si il existe $(A_i)$ telle que :
$\forall i, A_i \in \mathcal{P}$
$\bigcup_i A_i = F$
$\forall i, \mu(A_i) < \infty $
On a le résultat suivant pour les mesures $\sigma$-finies sur un $\pi$-système :
Théorème
Soit $\mu,\nu$ deux mesures $\sigma$-finies sur $(F,\mathcal{F})$ et $\mathcal{P}$
un $\pi$-système tel que $\mathcal{F} = \sigma\left(\mathcal{P}\right)$ et $\mu,\nu$ coincïdent sur $\mathcal{P}$. Alors $\mu = \nu$.
Preuve : admise.
Application : Mesure de Lebesgue
Théorème [Mesure de Lebesgue]
Il existe sur $(\mathbb{R}^d, \mathcal{B}(\mathbb{R}^d))$ une unique mesure $\lambda_d$ telle que $\forall a_1 < b_1, \dots, a_d < b_d$
$\lambda_d$ est appelée mesure de Lebesgue sur $\mathbb{R}^{d}$.
Preuve : existence admise. Unicité au tableau.Remarques :
Intuitivement, $\lambda_1 =$ "longueur", $\lambda_2 =$ "aire" etc.
$\forall A \in \mathcal{B}(\mathbb{R}^d) \forall x \in \mathbb{R}^{d}, \lambda_d(A+x) = \lambda_d(A)$ (les pavés forment un $\pi$-système)
$\lambda_d(\{a\}) = 0$
Nous reverrons cette mesure plus en détails dans le chapitre sur l'intégration.
Fonction Mesurables, Boréliennes
Soit $(F,\mathcal{F})$ et $(E,\mathcal{E})$ deux espaces mesurables.
Définition [fonctions mesurables et fonctions boréliennes]
Une application $X:F \to E$ est dite $\mathcal{F/\mathcal{E}}$-mesurable, ou mesurable, si :
$$
\forall H \in \mathcal{E}, X^{-1}(H) \in \mathcal{F}
$$
Si on a $(F,\mathcal{F})=(\mathbb{R}^n,\mathcal{B}(\mathbb{R}^n))$ et $(E,\mathcal{E}) = (\mathbb{R}^d,\mathcal{B}(\mathbb{R}^d))$, on dira que $X$ est une fonction borélienne.
En probabilité, $X$ mesurable est une variable aléatoire.
Nous donnons ci-après un résultat sur les fonctions mesurables :
Propriété
Soit $(E^\prime, \mathcal{E}^\prime)$ un espace mesurable. Si $X:F \to E$ et $f: E \to E^\prime$ sont mesurables alors $f\circ X:F \to E^\prime$ est également mesurable.
Preuve : cf. Poly.
Propriétés sur les fonction Boréliennes
Propriétés
Soit $f: \mathbb{R}^d \to \mathbb{R}^{n}$ une fonction continue et $X,Y$ des fonctions boréliennes sur $\mathbb{R}$ et $(X_n)_{n \in \mathbb{N}}$ une suite de fonction mesurables sur $\bar{\mathbb{R}}$.
Alors :
$f$ est borélienne.
$X+Y, XY, \max(X,Y), \min(X,Y)$ sont boréliennes.
Si $\lim_{n \to + \infty}(X_n)$ existe alors cette limite est borélienne.
$\sup X_n$ et $\inf X_n$ sont boréliennes.
Preuve : cf. Poly.
Propriété
Soit $\forall x \in F, \bold{Y}(x)=(Y_1(x), \dots, Y_d(x))$ une application de $F$ dans $\mathbb{R}^{d}$ où $Y_1, \dots, Y_d$ sont des fonctions de $F$ dans $\mathbb{R}$.
Les assertions suivantes sont équivalentes :
$\bold{Y}$ est borélienne sur $\mathbb{R}^{d}$.
Les composantes $Y_1, \dots, Y_d$ sont boréliennes sur $\mathbb{R}$.
Mesure image
Soit $(F,\mathcal{F}, \mu)$ un espace mesuré et $(E,\mathcal{E})$ un espace mesurable. S'il existe une fonction mesurable entre $F$ et $E$, on peut alors transferer
$\mu$ vers l'espace d'arrivée $(E, \mathcal{E})$ et ainsi obtenir un espace mesuré.
Théorème [mesure image]
Soit $X:F \to E$ une application mesurable. L'application :
Ainsi deux variable aléatoires réelles (v.a.r.) qui ont même fonction de répartition suivent la même loi.
III - Intégration
Motivations en probabilités
On cherche à généraliser la notion d'espérance pour n'importe qu'elle variable aléatoire réelle avec $(\Omega,\mathcal{F},\mathbb{P})$ un espace probabilisable et $(\mathbb{R}, \mathcal{B}(\mathbb{R}))$ un espace probabilisé:
$\mathbb{E}(X) = \sum_{\omega \in \Omega} X(\omega)\mathbb{P}(\{\omega\})$ pour les variables discrètes.
On souhaite donc avoir une formule générale du type :
L'intégrale de Riemann s'avère en fait insuffisante (limite uniforme de suite de fonctions en escalier)
On souhaite définir une intégrale pour toute fonction mesurable (c'est l'intégrale de Lebesgue)
L'intégrale de Lebesgue par ailleurs coïncide avec l'intégrale de Riemann
Pour ce faire, nous allons nous replonger dans la théorie de la mesure pour définir l'intégrale dans ce contexte.
Intégrale d'une fonction étagée (1/2)
Afin de définir l'intégrale d'une fonction quelconque, on s'intéresse d'abord à l'intégrale de fonctions mesurables très simple. Dans la suite, on adoptera la convention "$0\times f(x) = 0$"
pour n'importe quelle fonction même si $f(x) = \pm \infty$.
Définition [fonction mesurable étagée]
Une fonction $\mathcal{F}/\mathcal{B}(\mathbb{R})$-mesurable $f:F \to \mathbb{R}$ est dite étagée si elle prend un nombre fini de valeurs.
$f$ s'écrit alors :
$$
\forall x \in F, f(x)= \sum_{i=1}^{n} \alpha_i \bold{1}_{A_i}(x)
$$
où les $(\alpha_i)_{i=1}^{n}$ sont les valeurs distinctes prises par la fonction $f$ et $(A_i)_{i=1}^{n} \in F^{n}$ forment une partition de $F$.
Remarque:
$\rightarrow$ On a $ \forall i \in \llbracket 1, n\rrbracket, f^{-1}(\{\alpha_i\}) = \{x \in F \mid f(x) = \alpha_i\} = A_i$
Intégrale d'une fonction étagée (2/2)
Pour généraliser l'espérance, on veut en particulier
On définit alors l'intégrale d'une fonction étagée positive $f$ comme suit:
Définition [$\mu$-intégrabilité d'une fonction étagée positive]
La $\mu$-intégrale d'une fonction étagée positive $f$ est donné par:
$$
\int f d\mu = \sum_{k=1}^{n}\alpha_{k}\mu(A_k)
$$
Exemple :
$\rightarrow$ En posant $\alpha_1 = 1$ et $A_1 = A$ on a bien l'égalité $(1)$ recherchée.
$\rightarrow$ Soit $\lambda$ la mesure de Lebesgue sur $\mathbb{R}$. Alors $\int \bold{1}_{\mathbb{Q}}d\lambda = 0$ (non Riemann intégrable).
Propriétés
Propriété
Soient $\alpha_1,\dots,\alpha_n \geq 0$, $A_1, \dots, A_n \in \mathcal{F}$ (pas forcément distincts et ne formant par forcément une partition). Alors :
En particulier pour $f,g$ deux fonctions étagées positives et $\alpha, \beta \geq 0$ :
$$
\int (\alpha f + \beta g) d\mu = \alpha\int f d\mu + \beta\int g d\mu
$$
Preuve : Esquisse au tableau.
Propriété
Soit $f$ une fonction mesurable positive. Alors il existe $(f_n)$ une suite de fonction mesurable étagées telle que $0 \leq f_n \uparrow f$ où
$$
f_n \uparrow f \Leftrightarrow
\begin{cases}
\forall n, f_n \leq f_{n+1}, \\
\forall x \in F, f(x) = \lim_{n\to \infty}f_n(x)
\end{cases}
$$
Preuve : Exercice.
Intégrale d'une Fonction Mesurable Positive
Définition [intégrale d'une fonction mesurable positive]
Soit $f$ une fonction mesurable positive. On définit l'intégrale de $f$ comme suit :
$$
\int f d\mu = \sup \left\{ \int g d\mu : 0 \leq g \leq f \mid g \text{ étagée et mesurable}\right\}
$$
Remarques :
$\rightarrow$ Il n'est pas impossible que l'intégrale soit égale à $+\infty$.
$\rightarrow$ Si $f$ est étagée positive, alors l'intégrale coïncide avec la définition précédente.
Nous allons maintenant énoncer un lemme qui nous permettra de démontrer plusieurs résultats par la suite :
Lemme [Convergence Monotone faible]
Soit $(f_n)$ et $f$ des fonctions mesurables positives tel que $f_n \uparrow f$. Alors :
$\rightarrow$ L'intégrale de $f$ est bien définie si $\int f^{+} d\mu < +\infty$ ou $\int f^{-} d\mu < +\infty $.
$\rightarrow f$ est $\mu$-intégrable si $\int f^{+} d\mu < +\infty$ et $\int f^{-} d\mu < +\infty $
(on note alors $\mathcal{L}^1(\mu)$ l'ensemble des fonctions $\mu$-intégrables)
On a les premières propriétés suivantes :
Propriétés
Soif $f,g$ deux fonctions mesurables bien définies. Alors :
$f \leq g \implies \int f d\mu \leq \int g d\mu$
$\left|\int f d\mu\right| \leq \int |f|d\mu$
Preuve : Au tableau
Propriété de linéarité et corollaires
Propriété [linéarité]
Soit $f,g$ deux fonctions mesurables tels que $f,g \geq 0$ et $\alpha,\beta \geq 0$ ou $f,g \in \mathcal{L}^{1}(\mu)$. Alors :
$$
\int (\alpha f + \beta g) d\mu = \alpha\int f d\mu + \beta\int g d\mu
$$
Preuve : Au tableau
Deux corollaires sont alors issus du résultat précédent :
Motivations pour MDI103 :
$(\mathcal{L}^{1}(\mu), ||f|| := \int |f|d\mu)$ n'est pas un espace vectoriel normé (parfois, $||f||=0 \cancel{\implies} f=0$).
Cependant si on choisit l'égalité pour tout ensemble de mesure non nul, on obtient bien un espace vectoriel normé.
Soit $(F, \mathcal{F}, \mu)$ un espace mesuré alors :
$\quad \rightarrow$ Un ensemble est dit $\mu$-négligeable si $\mu(A)=0$.
$\quad \rightarrow$ Une propriété $\mathcal{P}(x)$ est dite vraie $\mu$-presque partout ($\mu$-pp) si $\forall x \in F, \mathcal{P}(x)$
$\quad\quad$ est vraie hors d'un ensemble $\mu$-négligeable.
On dit que $f$ est Riemann intégrable si pour tout $\epsilon > 0$ on a existence d'une subdivision $\Pi$ tel que $S_\Pi - s_\pi < \epsilon$. Dans ce cas, $\inf_{\Pi}S_\Pi = \sup_{\Pi}s_\Pi$ et cette valeur
est l'intégrale de Riemann notée $\int_{a}^{b}f(x)dx.$ Il peut être montré que toute fonction continue, cpm, en escalier ou monotone est Riemann intégrable.
L'intégrale de Lebesgue existe quant à elle pour toute fonction mesurable et est définie par $\int f(x) \lambda(dx)$ ou plus simplement noté $\int f(x) dx$ quand il n'y a pas d'ambiguité.
Lien entre intégrale de Riemann et intégrale de Lebesgue (2/2)
Henri Lebesgue a démontré le résultat suivant :
Théorème
Si $f$ est Riemann intégrable alors il existe $g \in \mathcal{L}^{1}(\lambda)$ muni de la tribu de Borel et telle que $f=g \quad \lambda$-pp.
On voit que la réciproque est fausse pour beaucoup de fonctions mesurables. Par exemple si on prend $f=\bold{1}_{\mathbb{Q} \cap [0,1]}$ par densité des rationnels dans $\mathbb{R}$
pour tout sous intervalle $[x_i, x_{i-1}]$, il existe un rationnel et un irrationnel. Par conséquent, $S_{\Pi} = 1$ et $s_{\Pi} = 0$. Hors on sait que l'intégrale de Lebesgue vaut $0$ (union dénombrable).
Cela montre entre autre l'intérêt de considérer l'intégration par rapport à la mesure de Lebesgue.
IV - Variables Aléatoires et Espérance
Rappels : Variables aléatoires
On considère $(\Omega, \mathcal{F}, \mathbb{P})$ un espace de probabilité et $(E, \mathcal{E})$ un espace probabilisable. On rappelle que :
$X$ est une variable aléatoire (v.a.) $\Leftrightarrow$ $X : \Omega \to E$ est mesurable.
La loi de la v.a. $X$, notée $\mathbb{P}_{X}$, est la mesure image de $\mathbb{P}$ i.e. $\mathbb{P}_{X}=\mathbb{P} \circ X^{-1}$:
$F_X = F_Y \Leftrightarrow \mathbb{P}_{X} = \mathbb{P}_{Y}$ (même loi $\Leftrightarrow$ même fonction de répartition)
On rappelle (cf. poly) :
$F_X$ est croissante, continue à droite et $\underset{x \to -\infty}{\lim} F(x) = 0, \underset{x \to +\infty}{\lim} F(x) = 1$
$F_X(x^-) = \mathbb{P}(X < x)$
$F_X(x^-) + \mathbb{P}(X=x) = F_X(x)$
Variables aléatoires à densité
On rappelle qu'on a vu en TD :
D'après ce que l'on a vu en TD. On peut donner la définition suivante :
Définition [densité de probabilité d'une variable aléatoire]
Si $\mathbb{P}_{X}$ est une mesure à densité par rapport à une mesure $\mu$, il existe alors $f_X$ mesurable positive vérifiant $\int f_X d\mu = 1$ et :
On dit que $f_X$ est la densité de probabilité de $X$.
On a par ailleurs un lien entre la densité de probabilité de $f_X$ et la fonction de répartition $F_X$ :
Propriété
Si $X$ est une v.a.r. dont $F_X$ est continue et $C^1$ par morceaux alors :
$f_X(x) = F_X^\prime(x)$
Espérance
Dans le cas discret $\mathbb{E}(X) = \sum_{n}x_n \mathbb{P}(X=x_n)$ avec $X\in \{x_1,\dots ,\}$. Dans le cas des v.a.r. ?
Définition
Si $X$ est une v.a.r. telle que $X \geq 0$ ou $\int_{\omega \in \Omega} |X(\omega)|d\mathbb{P}(\omega) < \infty$, on définit l'espérance de $X$, notée $\mathbb{E}(X)$, par :
En pratique, cette définition n'est pas applicable car nous n'avons pas une formule de $X$ directement ni une expression de $\mathbb{E}(X)$ en fonction de $\mathbb{P}$.
Nous pouvons cependant avoir une expression de $\mathbb{E}(X)$ en fonction de $\mathbb{P}_{X}$, voire de $\mathbb{E}(g(X))$ en fonction de $\mathbb{P}_X$ (et non de $\mathbb{P}_{g(X)}$)
Théorème de Transfert
Les deux paragraphes précédents sont des résultats représentées par le théorème de transfert :
Théorème [de Transfert]
Si $X$ est une v.a.r. telle que $X:\Omega \to E$ et $g: E \to \mathbb{R}$ meusrable telle que $\mathbb{E}(g(X))$ soit bien définie. Alors :
$\mathbb{E}(g(X)) = \int g d\mathbb{P}_X$
Preuve : Esquisse au tableau.
Application (Espérance d'une variable à densité) :
$\rightarrow$ Dans le cas des variables à densité, Soit $X$ de densité $f_X$ p/r à Lebesgue. D'après Exo 14 $\mathbb{P}(X\in H) = \int_{H}f_X(x)dx$. D'après Exo 16, $\int gd\mathbb{P}_X = \int g(x)f_X(x)dx$.
Finalement par le théorème de Transfert on a alors :
Les définitions, propriétés et résultats sur les variance covariance et moments d'ordre $p$ sont exactement les mêmes que dans le cas discret (c.f. Poly)
V - Théorème de Fubini et Indépendance
Tribu Produit
On considère $(F, \mathcal{F}, \mu)$ un espace mesurée, et $(E_1, \mathcal{E}_1) , (E_2, \mathcal{E}_2)$ des espace mesurables, $f_1:F \to E_1$ et $f_2:F \to E_2$ des fonctions mesurables. Egalement :
$$ \begin{aligned}
f: F &\to E_1 \times E_2\\
f & \mapsto
(f_1(x_1), f_2(x_2))
\end{aligned}
$$
En proba, une variable aléatoire sur $E_1 \times E_2$ est aussi appelé vecteur aléatoire. Définissons la tribu choisie sur $E_1 \times E_2$.
Définition [tribu produit]
La tribu produit sur $E_1 \times E_2$ est définie comme suit :
C'est la plus petite tribu qui contient les pavés du type $H_1 \times H_2$.
On a la propriété suivante sur les boréliens :
Propriété
Avec la définition précédente, on a :
$\bigotimes_{d=1}^{D}\mathcal{B}(\mathbb{R}) = \mathcal{B}(\mathbb{R}^d)$
Mesure produit
Un des choix majeurs d'une telle tribu produit est le résultat suivant :
Théorème [mesure produit]
Soit $\mu_1, \mu_2$ des mesures $\sigma$- finies sur $(E_1, \mathcal{E}_1)$ et $(E_2, \mathcal{E}_2)$ respectivement. Il existe une unique mesure produit sur $\mathcal{E}_1 \otimes \mathcal{E}_2$ et notée $\mu_1 \otimes \mu_2$ telle que :
Exemple :
Considérons $E_1=E_2=\mathbb{R}$ et $\mu_1=\mu_2=\lambda$ la mesure de Lebesgue
$\lambda \otimes \lambda$ est l'unique mesure sur $\mathcal{B}(\mathbb{R}) \otimes \mathcal{B}(\mathbb{R})$ telle que
$\lambda \otimes \lambda (H_1 \times H_2) = \lambda(H_1) \lambda(H_2)$ en particulier :
$\rightarrow$ $E_1=E_2=\mathbb{R}, \mu_1 = \lambda, \mu_2 = \sum_{i} \delta_i$. Le théorème de Fubini devient alors le théorème de permutation somme-intégrale (à la maison)
Généralisation des résultats précédents
On peut généraliser sur $(E_1, \mathcal{E}_1) \times \dots \times (E_d, \mathcal{E}_d)$ trivialement :
On dit que $X_1, \dots, X_d$ sont indépendantes ssi $\forall H_1 \in \mathcal{E_1}, \dots, H_1 \in \mathcal{E_d}$ les évènements
$\{X_1 \in H_1\}, \dots, \{X_1 \in H_d\}$ sont indépendants :
On note $X_1 \perp X_2 \Leftrightarrow X_1$ et $X_2$ indépendants. On a les résultats suivants :
Propriétés
Les assertions suivantes sont équivalentes avec $X=(X_1, \dots, X_d)$ et $(h_i)_{i\in \{1, \dots, d\}}$ mesurables telle que $h_i(X_i) \geq 0$ ou intégrables :
La réciproque est fausse. Soit $X \perp Y$ et $Z=XY$. Alors $X \not\perp XY$ et
$\mathrm{Cov}(X,Z) = \mathbb{E}[X^2Y] = \mathbb{E}[h(X)Y] = 0$ car $X \perp Y$
Deux autres résultats utiles (preuve dans le poly) :
Position du problème, Méthode de la fonction muette
Soit $X$ vecteur aléatoire dans $\mathbb{R}^d$ tel que:
$X(\Omega)\subset U \subset \mathbb{R}^d$ où $U$ est un ouvert
$X$ admet pour densité $f_X$ par rapport à $\lambda_d$ (mesure de Lebesgue sur $\mathbb{R}^d$)
$Y:=\phi(X)$ avec $\phi$ une fonction borélienne sur $\mathbb{R}^d$
Question : Comment obtenir, quand-elle existe, la densité $f_Y$ de $Y$ p/r à $\lambda_d$ ?
Calculons $\mathbb{E}(h(Y)) = \int_{U \subset \mathbb{R}^d} (h\circ \phi)\times f_X d\lambda_d $ avec $h$ positive définie sur $\mathbb{R}^d$.
Supposons que l'on arrive à écrire $\mathbb{E}(h(Y))$ sous la forme $\int_{V \subset \mathbb{R}^d} h\times f_Yd\lambda_d$. Si on pose alors $h=\bold{1}_{H}$ on obtient :
$$
\mathbb{E}(\bold{1}_{\{Y \in H\}}) = \mathbb{P}(Y \in H) = \int_{H \subset \mathbb{R}^d} f_Yd\lambda_d \implies f_Y \text{ densité de } Y \text{ par rapport à } \lambda_d.
$$
$\rightarrow$ Cette procédure s'appelle la méthode de la fonction muette. Elle se résume par :
Considérer une fonction $h$ positive et définie sur $\mathbb{R}^d$
La fonction $f_Y$ trouvée précédemment est la densité de $Y$ p/r à $\lambda_d$
Les $\dots$ dans ii. Sont l'objet du changement de variable.
Jacobien et Difféomorphisme
Rappelons quelques notions d'analyses avec $U,V$ deux ouverts de $\mathbb{R}^d$ et $\phi:U \to V$ telle que $\forall x \in U: \phi(x) = (\phi_1(x),\dots, \phi_d(x))$.
Définition [Jacobienne et Jacobien]
Pour $\phi$ de classe $\mathcal{C}^1$ (les dérivées partielles existent et sont continues) la jacobienne est définie par :
Le jacobien de $\phi$ en $x$ est alors $|J_{\phi}|(x)=\det(J_{\phi}(x))$
$\rightarrow$ $\phi$ bijective, de classe $\mathcal{C}^1$ et d'inverse de classe $\mathcal{C}^1$ est un $\mathcal{C}^1$- difféomorphisme.
$\rightarrow$ De plus : $\phi$ de classe $\mathcal{C}^1$ est un difféomorphisme $\Leftrightarrow \forall x, |J_{\phi}|(x) \neq 0$ et alors :
Remarque:
$ \rightarrow \varphi$ est bien définie puisque $\mu$ est finie ou de probabilité et $|e^{i<\bold{t}, \bold{x}>}| = 1$
$\rightarrow$ si $\mu$ est de probabilité, $\forall \bold{t} \in \mathbb{R}^d, |\varphi_\mu(t)| \leq \int |e^{i<\bold{t}, \bold{x}>}|d\mu(\bold{x}) = 1$
On a de plus la propriété suivante :
Propriété
Soit $\mu$ de probabilité. Alors $\varphi_{\mu}$ est continue.
Preuve : Au tableau.
Fonction caractéristique d'un vecteur aléatoire
Soit $X$ un vecteur aléatoire réel sur $(\Omega, \mathcal{F}, \mathbb{P})$ de dimension $d$ et $\mathbb{P}_{X}$ sa loi.
Définition
La fonction caractéristique d'un vecteur aléatoire réel $X$ noté $\varphi_{X}$ (rarement $\varphi_{\mathbb{P}_X})$ est donnée par
Ainsi, pour un vecteur aléatoire admettant une densité, $\varphi_X$ peut-être vu comme la transofrmée de Fourier de $f(-x)$.
Exemple : Soit $X:\Omega \to \mathbb{R}^d$ et $Y=AX+\bold{b}, A\in \mathbb{R}^ {m\times d}, \bold{b} \in \mathbb{R}^m$. Pour $\bold{u} \in \mathbb{R}^m$ :
Preuve : Au tableau.
Exercice : Soit $X \sim \mathcal{N}(0,1)$
$\forall t \in \mathbb{R}$ montrer que $\varphi^\prime_{X}(t) = -t \varphi_X(t)$
Résoudre l'équation précédente et en déduire que $\varphi_{X}(t) = e^{-t^2/2}$
En remarquant que $Z \sim \mathcal{N}(m, \sigma^2) \Leftrightarrow Z = \sigma X + m$ montrer que
$\varphi_{Z}(t) = e^{itm}e^{-\sigma^2t^2/2}$
Calculs des moments (1/2)
Soit $X: \Omega \to \mathbb{R}^d$ un vecteur aléatoire réel d'ordre $p \in \mathbb{N}^\star$ (i.e. $\mathbb{E}(|X_i|^p) < \infty, \forall i$)
Propriété
On a les résultats suivants :
$\rightarrow$ Si $d=1$, alors $\varphi_X$ est de classe $\mathcal{C}^p$ et la dérivée p-ème $\varphi_X^{(p)}$ de $\varphi_X$ vérifie :
$\mathrm{Cov}(X)$ est symétrique ($\mathrm{Cov}(X,Y) = \mathrm{Cov}(Y,X)$)
Si $X_1, \dots, X_d$ sont décoréllées alors $\mathrm{Cov}(X)=\mathrm{Diag}(\{\mathrm{Var}(X_i)\}_{i \in \llbracket 1, d\rrbracket})$
Espérance/Covariance d'un vecteur aléatoire (2/2)
Nous donnons quelques propriétés sur la covariance. $X_c := X - \mathbb{E}(X)$ désigne le vecteur recentré.
Propriétés
On a les résultats suivants sur la covariance :
$\mathrm{Cov}(X) = \mathbb{E}(X_cX_c^\top)$
$\mathrm{Cov}(AX+b) = A\mathrm{Cov}(X)A^\top$
$\mathrm{Cov}(X)$ est semi-définie positive
$X \perp Y \implies \mathrm{Cov}(X+Y) = \mathrm{Cov}(X) + \mathrm{Cov}(Y)$
Preuve: Au tableau.
Vecteur Gaussien : Définition et Premières Propriétés
Rappel :
La loi gaussienne $\mathcal{N}(m, \sigma^2)$ admet pour densité $f(x)=\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(x-m)^2}{2\sigma^2}}$ et fonction caractéristique $\varphi (t) = e^{itm}e^{-\frac{\sigma^2t^2}{2}}$.
Définition [vecteur gaussien]
On dit que $X:\Omega \to \mathbb{R}^d$ est un vecteur gaussien (VG) si $\forall \bold{a} \in \mathbb{R}^d, <\bold{a}, X>$ suit une loi gaussienne.
On a alors les propriétés suivantes :
Définition [vecteur gaussien]
On a les résultats suivants pour $X=(X_1, \dots, X_d)$ une VG :
$\forall k \in \llbracket 1,d \rrbracket, X_k$ est une variable gaussienne
Tout sous vecteur $(X_{i_1}, \dots, X_{i_m})$ est gaussien
Preuve : Au tableau.
Fonction Caractéristique et Indépendance
La propriété suivante nous permet de caractériser les vecteur Gaussiens.
Propriété
Les assertions suivantes sont équivalentes :
$X$ est un VG d'espérance $\bold{m}\in \mathbb{R}^d$ et de covariance $\mathrm{Cov}(X) = \Sigma \in \mathbb{R}^{d\times d}$
$\forall t \in \mathbb{R}^d, \varphi_{X}(\bold{t}) = e^{i<\bold{t},\bold{m}>}e^{\frac{-\bold{t}^\top\Sigma\bold{t}}{2}}$
On écrira alors $X \sim \mathcal{N}_{d}(\bold{m}, \Sigma)$
Preuve : Au tableau.
On a alors le résultat suivant sur l'indépendance de variables gaussiennes :
Propriété
Les assertions suivantes sont équivalentes avec $\forall k \in \llbracket 1, d\rrbracket, X_k \sim \mathcal{N}(m_k,\sigma_k^2)$ :
$X_1 \perp \dots \perp X_d$ et sont des variables gaussiennes
$X=(X_1,\dots,X_d) \sim \mathcal{N}_{d}\left(\bold{m},\mathrm{Diag}[\{\sigma_k^2\}_{k \in \llbracket 1, d \rrbracket}]\right)$
avec $\bold{m}=(m_1, \dots,m_d)^\top$
Preuve : Au tableau.
Transformation Affine
Théorème
Si $X \sim \mathcal{N}_d (\bold{m}, \Sigma)$ alors $AX+\bold{b} \sim \mathcal{N}_d(A\bold{m} + \bold{b}, A\Sigma A^\top)$
Preuve : Au tableau.
Exemple : Exercice 41
Densité d'un vecteur Gaussien
On a le résultat suivant :
Propriété
Si $X\sim\mathcal{N}_{d}(\bold{m},\Sigma)$ avec $\Sigma$ définie positive (et donc $\Sigma$ inversible). Alors, $X$ admet pour densité :
Problème : $\mathbb{P}(X=x)=0$ pour une variable à densité donc pas de sens.
Intuitivement, on aimerait écrire $\mathbb{P}_{X,Y} (H \times G) = \int_H f_{Y \mid X=x}(G)d\mathbb{P}_X(x)$.
C'est à dire que $\mathbb{P}_{X,Y} $ admette une densité par rapport à $\mathbb{P}_X$.
Un théorème fondamental en théorie de la mesure va nous permettre de construire une telle densité :
Théorème [Radon-Nikodym]
Soient $\mu$ et $\nu$ deux mesures $\sigma$-finies sur $(F, \mathcal{F})$. Alors :
$\mu$ admet une densité p/r à $\nu \Leftrightarrow (\forall A \in \mathcal{F}, \mu_{A} = 0 \implies \nu_{A}=0)$ est vérifiée.
Remarque : La propriété $(\forall A \in \mathcal{F}, \mu_{A} = 0 \implies \nu_{A}=0)$ se dit aussi "$\mu$ est absolument continue p/r à $\nu$" et on note $"\mu \ll \nu"$
Probabilité conditionnelle
On considère :
$(\Omega, \mathcal{F}, \mathbb{P})$ un espace de probabilité, $(E, \mathcal{E}), (F, \mathcal{G})$ des espaces mesurables
$X:\Omega \to E, Y:\Omega \to F$ deux v.a.
$\mathbb{P}_{X,Y}, \mathbb{P}_{X}, \mathbb{P}_{Y}$ la loi jointe et ses marginales respectivement
Le théorème précédent entraîne directement que $H \mapsto \mathbb{P}_{(X,Y)}(H \times G)$ est absolument continue par rapport à la mesure $\mathbb{P}_X$. D'où la définition suivante :
Définition [Probabilité conditionnelle]
$\forall G \in \mathcal{G}, \mathbb{P}_{Y \mid X=x}(G)$ est la fonction de $x$, définie de manière unique $\mathbb{P}_X$- p.p., telle que
$X \sim \beta(a,b)$ une loi beta de densité $f_X(x) = \frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}x^{a-1}(1-x)^{b-1}\bold{1}_{[0,1]}(x)$
$Y$ une variable aléatoire discrète sur $\{0,1\}$
On suppose que $\mathbb{P}_{Y\mid X=x} = x \delta_{1} + (1-x)\delta_0$ pour $x \in [0,1]$
Si on analyse, $Y\mid X=x$ revient à prendre $x$ issue d'une loi beta sur $[0,1]$ et de tirer une Bernoulli avec probabilité $x$ de succès.
Soit $Y\mid X=x \sim \mathcal{B}(x)$.
Quelle est la loi de $X \mid Y=y$ ?
$(X,Y)$ admet une densité $f_{X,Y}(x,y)$ p/r à $(\mu=\lambda) \otimes (\nu = \delta_0 + \delta_1)$