Théorème d'Ulam

Le théorème d'Ulam est un théorème concernant les tribus (ou σ-algèbres), en théorie de la mesure et en probabilités. Ce théorème justifie en partie l'introduction de ces concepts. Il fut démontré dans un article écrit par Stefan Banach et Kazimierz Kuratowski en 1929[1] en utilisant l'hypothèse du continu, puis par Stanislaw Ulam en 1930 sous des hypothèses plus faibles[2].

Énoncé

Mesure diffuse

Définition — Soit ( Ω , A , μ ) {\displaystyle (\Omega ,{\mathcal {A}},\mu )} un espace mesuré. On dit qu'un élément x Ω {\displaystyle x\in \Omega } est un atome pour μ {\displaystyle \mu } si on a { x } A {\displaystyle \left\{x\right\}\in {\mathcal {A}}} et μ ( { x } ) > 0 {\displaystyle \mu \left(\left\{x\right\}\right)>0} . On dit que la mesure est diffuse si elle est sans atomes.

Par exemple, si ( Ω , A ) = ( N , P ( N ) ) {\displaystyle \left(\Omega ,{\mathcal {A}}\right)=\left(\mathbb {N} ,{\mathcal {P}}\left(\mathbb {N} \right)\right)} , une mesure non nulle ne peut pas être diffuse. En effet, si une mesure est non nulle, alors μ ( N ) = n N μ ( { n } ) > 0 {\textstyle \mu \left(\mathbb {N} \right)=\sum _{n\in \mathbb {N} }\mu \left(\{n\}\right)>0} par σ-additivité donc nécessairement, μ ( { n } ) {\displaystyle \mu \left(\{n\}\right)} est non nul pour au moins un n N {\displaystyle n\in \mathbb {N} } . On arrive à la même conclusion pour n'importe quel univers au plus dénombrable muni de sa tribu discrète.

Théorème d'Ulam (1930)

Théorème d'Ulam (1930) — Il n'existe pas de probabilité diffuse sur ( R , P ( R ) ) {\displaystyle \left(\mathbb {R} ,{\mathcal {P}}\left(\mathbb {R} \right)\right)} .

Ce théorème montre que les probabilités sur un tel espace sont nécessairement discrètes[3]. En effet, soit D = { ω Ω | P ( { ω } ) > 0 } {\displaystyle D=\left\{\omega \in \Omega |\mathbb {P} \left(\left\{\omega \right\}\right)>0\right\}} . Alors, on obtient D = n N { ω Ω | P ( { ω } ) > 1 n } {\textstyle D=\bigcup _{n\in \mathbb {N} ^{*}}\left\{\omega \in \Omega |\mathbb {P} \left(\left\{\omega \right\}\right)>{\frac {1}{n}}\right\}} , et { ω Ω | P ( { ω } ) > 1 n } {\textstyle \left\{\omega \in \Omega |\mathbb {P} \left(\left\{\omega \right\}\right)>{\frac {1}{n}}\right\}} est toujours de cardinal au plus n {\displaystyle n} . Par conséquent, D {\displaystyle D} est au plus dénombrable. Or, l'évènement Ω = Ω D {\displaystyle \Omega '=\Omega \setminus D} est P {\displaystyle \mathbb {P} } -négligeable, sinon P P ( Ω ) {\textstyle {\frac {\mathbb {P} }{\mathbb {P} (\Omega ')}}} serait une probabilité diffuse sur ( Ω , P ( Ω ) ) {\displaystyle \left(\Omega ',{\mathcal {P}}\left(\Omega '\right)\right)} qui a la puissance du continu, ce qui est impossible en vertu du théorème d'Ulam. D {\displaystyle D} est donc P {\displaystyle \mathbb {P} } -presque sûr.

Remarques

  • Comme le montre la démonstration présentée ci-dessous, le résultat d'Ulam est plus général :

Théorème — S'il existe un cardinal α {\displaystyle \aleph _{\alpha }} pour lequel il existe une probabilité diffuse sur ( α , P ( α ) ) {\displaystyle (\aleph _{\alpha },{\mathcal {P}}(\aleph _{\alpha }))} , alors celui-ci est supérieur à un cardinal faiblement accessible.

Il suffit donc de supposer que 2 0 {\displaystyle 2^{\aleph _{0}}} est inférieur à tout cardinal faiblement inaccessible pour que le théorème d'Ulam soit vrai.

  • Le théorème est faux si on remplace "probabilité diffuse" par "mesure diffuse". En effet, l'application μ : P ( R ) [ 0 ; + ] A { 0 si card A 0 + sinon {\displaystyle \mu :{\begin{array}{ccl}{\mathcal {P}}(\mathbb {R} )&\rightarrow &[0;+\infty ]\\A&\mapsto &{\begin{cases}0&{\textrm {si}}\;{\textrm {card}}\,A\leqslant \aleph _{0}\\+\infty &{\textrm {sinon}}\end{cases}}\end{array}}} est une mesure, puisqu'une union dénombrable d'ensembles dénombrables est dénombrable, et elle est diffuse.

Démonstration

Lemmes utiles

Lemme (i) — S'il n'existe pas de probabilité diffuse sur ( Ω , A ) {\displaystyle (\Omega ,{\mathcal {A}})} , il n'existe pas non plus de mesure non nulle qui soit bornée et diffuse.

Si μ {\displaystyle \mu } est une mesure non nulle bornée et diffuse sur ( Ω , A ) {\displaystyle (\Omega ,{\mathcal {A}})} , alors μ μ ( Ω ) {\textstyle {\frac {\mu }{\mu (\Omega )}}} est une probabilité diffuse sur ( Ω , A ) {\displaystyle (\Omega ,{\mathcal {A}})} .

Lemme (ii) — S'il existe une probabilité diffuse P {\displaystyle \mathbb {P} } sur ( Ω , A ) {\displaystyle (\Omega ,{\mathcal {A}})} et si Ω A {\displaystyle \Omega '\in {\mathcal {A}}} est un évènement non P {\displaystyle \mathbb {P} } -négligeable, alors il existe une probabilité diffuse sur Ω {\displaystyle \Omega '} muni de la tribu trace de A {\displaystyle {\mathcal {A}}} sur Ω {\displaystyle \Omega '}

Q : { A Ω | A A } [ 0 ; 1 ] A P ( A ) {\displaystyle \mathbb {Q} :{\begin{array}{ccl}\{A\cap \Omega '|A\in {\mathcal {A}}\}&\rightarrow &[0;1]\\A'&\mapsto &\mathbb {P} (A')\end{array}}} est une mesure diffuse bornée non nulle donc d'après le lemme (i), il existe une probabilité diffuse sur la tribu trace.

Avec l'hypothèse du continu[4]

On considère un ensemble Ω {\displaystyle \Omega } de cardinal 1 {\displaystyle \aleph _{1}} . D'après l'hypothèse du continu, il a la puissance du continu, c'est-à-dire qu'il est équipotent à l'ensemble des nombres réels.

Lemme — Il existe un bon ordre {\displaystyle \preceq } sur Ω {\displaystyle \Omega } tel que tous les segments initiaux sont au plus dénombrables, c'est-à-dire :

ω Ω , { x Ω | x ω } {\displaystyle \forall \omega \in \Omega ,\left\{x\in \Omega |x\prec \omega \right\}} est au plus dénombrable.

La démonstration qui suit de ce lemme utilise à la fois l'hypothèse du continu et l'axiome du choix via le théorème de Zermelo.

Démonstration

D'après l'hypothèse du continu, Ω {\displaystyle \Omega } est équipotent à 1 {\displaystyle \aleph _{1}} , le plus petit cardinal indénombrable et donc aussi le plus petit ordinal indénombrable. Soit f : Ω 1 {\displaystyle f:\Omega {\overset {\approx }{\to }}\aleph _{1}} une bijection. Si on note < {\displaystyle <} la relation d'ordre strict entre ordinaux, alors on définit la relation d'ordre telle que x y f ( x ) < f ( y ) {\displaystyle x\prec y\iff f(x)<f(y)} . Par construction, f {\displaystyle f} est croissante et {\displaystyle \preceq } est un bon ordre. Chaque segment initial propre de ( Ω , ) {\displaystyle (\Omega ,\preceq )} est alors isomorphe à un segment initial propre de 1 {\displaystyle \aleph _{1}} , qui est bien au plus dénombrable par minimalité de 1 {\displaystyle \aleph _{1}} .

Notons S ( z ) = { x Ω | x z } {\textstyle S(z)=\{x\in \Omega |x\prec z\}} . L'axiome du choix nous permet de considérer, pour tout z Ω {\textstyle z\in \Omega } une injection φ z : S ( z ) N {\displaystyle \varphi _{z}:S(z)\hookrightarrow \mathbb {N} } , qu'on prolonge en une application φ z : Ω N { + } {\displaystyle \varphi '_{z}:\Omega \rightarrow \mathbb {N} \cup \{+\infty \}} en posant φ z ( x ) = + {\displaystyle \varphi '_{z}(x)=+\infty } pour x S ( z ) {\displaystyle x\notin S(z)} . Alors posons, pour n N {\displaystyle n\in \mathbb {N} } et x Ω {\displaystyle x\in \Omega }

F x n = { z Ω | z x , φ z ( x ) = n } {\displaystyle F_{x}^{n}=\{z\in \Omega |z\succ x,\varphi '_{z}(x)=n\}}
La collection des ( F x n ) {\displaystyle (F_{x}^{n})} est appelée matrice d'Ulam. On dispose les ensembles ainsi :
F x 0 0 F x 1 0 F x 0 1 F x 1 1 {\displaystyle {\begin{matrix}F_{x_{0}}^{0}&F_{x_{1}}^{0}&\cdots \\F_{x_{0}}^{1}&F_{x_{1}}^{1}\\\vdots &&\ddots \end{matrix}}}
On remarque alors que :

  • sur chaque ligne, les ensembles sont deux à deux disjoints par injectivité des φ z {\displaystyle \varphi _{z}} .
  • sur chaque colonne, on a : n N F x n = { y Ω | y x } = Ω S ( x + 1 ) {\textstyle \bigcup _{n\in \mathbb {N} }F_{x}^{n}=\{y\in \Omega |y\succ x\}=\Omega \setminus S(x+1)}

Or, quel que soit n N {\displaystyle n\in \mathbb {N} } , et J Ω {\displaystyle J\subset \Omega } fini, P ( x J F x n ) = x J P ( F x n ) 1 {\textstyle \mathbb {P} \left(\biguplus _{x\in J}F_{x}^{n}\right)=\sum _{x\in J}\mathbb {P} (F_{x}^{n})\leqslant 1} donc ( P ( F x n ) ) x Ω {\textstyle \left(\mathbb {P} \left(F_{x}^{n}\right)\right)_{x\in \Omega }} est sommable et nécessairement { x Ω | P ( F x n ) > 0 } {\displaystyle \{x\in \Omega |\mathbb {P} (F_{x}^{n})>0\}} est au plus dénombrable, donc n N { x Ω | P ( F x n ) > 0 } {\textstyle \bigcup _{n\in \mathbb {N} }\{x\in \Omega |\mathbb {P} (F_{x}^{n})>0\}} est aussi au plus dénombrable. Par conséquent, comme Ω {\displaystyle \Omega } est de cardinal strictement supérieur à celui de N {\displaystyle \mathbb {N} } , il existe nécessairement une colonne d'indice x 0 Ω {\displaystyle x_{0}\in \Omega } dont tous les F x 0 n {\displaystyle F_{x_{0}}^{n}} sont de probabilité nulle. Donc P ( n N F x 0 n ) = 0 {\textstyle \mathbb {P} \left(\bigcup _{n\in \mathbb {N} }F_{x_{0}}^{n}\right)=0} par σ-additivité, d'où P ( Ω S ( x 0 + 1 ) ) = 0 {\displaystyle \mathbb {P} \left(\Omega \setminus S(x_{0}+1)\right)=0} et P ( S ( x 0 + 1 ) ) = 1 {\displaystyle \mathbb {P} (S(x_{0}+1))=1} . Comme S ( x 0 + 1 ) {\displaystyle S(x_{0}+1)} est au plus dénombrable et P {\displaystyle \mathbb {P} } σ-additive, P ( S ( x 0 + 1 ) ) = x S ( x 0 + 1 ) P ( { x } ) = 1 {\textstyle \mathbb {P} \left(S(x_{0}+1)\right)=\sum _{x\in S(x_{0}+1)}\mathbb {P} (\{x\})=1} et donc il existe au moins un atome dans S ( x 0 + 1 ) {\displaystyle S(x_{0}+1)} .

Avec les hypothèses d'Ulam

L'hypothèse d'Ulam est plus faible : il suppose que tout cardinal inférieur à 2 0 {\displaystyle 2^{\aleph _{0}}} est accessible (au sens faible). Plus précisément si on suppose l'existence de μ {\displaystyle \aleph _{\mu }} , plus petit cardinal (infini) pour lequel il existe une probabilité diffuse P {\displaystyle \mathbb {P} } , alors μ {\displaystyle \aleph _{\mu }} est nécessairement faiblement inaccessible.

Proposition I —  μ {\displaystyle \aleph _{\mu }} est limite i.e. μ {\displaystyle \mu } n'est pas de la forme ν + 1 {\displaystyle \nu +1} .

En effet, si on suppose μ = ν + 1 {\displaystyle \mu =\nu +1} , par définition de μ {\displaystyle \aleph _{\mu }} , il n'existe pas de mesure non nulle diffuse bornée sur ( ν , P ( ν ) ) {\displaystyle (\aleph _{\nu },{\mathcal {P}}(\aleph _{\nu }))} ni pour les cardinaux inférieurs. On montre alors avec une démonstration du même type que pour μ = 1 {\displaystyle \mu =1} que P {\displaystyle \mathbb {P} } ne peut pas être diffuse. On pose S ( z ) = { x μ | x < z } {\displaystyle S(z)=\{x\in \aleph _{\mu }|x<z\}} , et on choisit une injection φ z : S ( z ) ν {\displaystyle \varphi _{z}:S(z)\hookrightarrow \aleph _{\nu }} pour tout z μ {\displaystyle z\in \aleph _{\mu }} , qui existent nécessairement puisque les segments initiaux propres de μ {\displaystyle \aleph _{\mu }} sont de cardinal < μ {\displaystyle <\aleph _{\mu }} . On pose alors pour x μ , n ν {\displaystyle x\in \aleph _{\mu },n\in \aleph _{\nu }}  : F x y = { n μ | z > x , φ z ( x ) = n } {\displaystyle F_{x}^{y}=\{n\in \aleph _{\mu }|z>x,\varphi _{z}(x)=n\}} .

F 0 0 F 1 0 F 0 1 F 1 1 {\displaystyle {\begin{matrix}F_{0}^{0}&F_{1}^{0}&\cdots \\F_{0}^{1}&F_{1}^{1}\\\vdots &&\ddots \end{matrix}}}

Sur chaque ligne, les ensembles sont deux à deux disjoints, et sur chaque colonne, n ν F x n = { y μ | y > x } = μ S ( x + 1 ) {\textstyle \bigcup _{n\in \aleph _{\nu }}F_{x}^{n}=\{y\in \aleph _{\mu }|y>x\}=\aleph _{\mu }\setminus S(x+1)} . Pour n ν , J μ {\displaystyle n\in \aleph _{\nu },J\subset \aleph _{\mu }} fini, P ( x J F x n ) = x J P ( F x n ) 1 {\textstyle \mathbb {P} \left(\biguplus _{x\in J}F_{x}^{n}\right)=\sum _{x\in J}\mathbb {P} (F_{x}^{n})\leqslant 1} donc ( P ( F x n ) ) x μ {\textstyle \left(\mathbb {P} \left(F_{x}^{n}\right)\right)_{x\in \aleph _{\mu }}} est sommable et nécessairement { x μ | P ( F x n ) > 0 } {\displaystyle \{x\in \aleph _{\mu }|\mathbb {P} (F_{x}^{n})>0\}} est au plus dénombrable, d'où n ν { x μ | P ( F x n ) > 0 } {\textstyle \bigcup _{n\in \aleph _{\nu }}{\displaystyle \{x\in \aleph _{\mu }|\mathbb {P} (F_{x}^{n})>0\}}} est de cardinal au plus ν {\displaystyle \aleph _{\nu }} (en effet, cet ensemble s'injecte dans 0 × ν {\displaystyle \aleph _{0}\times \aleph _{\nu }} donc dans ν 2 ν {\textstyle \aleph _{\nu }^{2}\approx \aleph _{\nu }} ). Comme ν < μ {\displaystyle \aleph _{\nu }<\aleph _{\mu }} , il existe x 0 μ {\displaystyle x_{0}\in \aleph _{\mu }} tel que n ν , P ( F x 0 n ) = 0 {\displaystyle \forall n\in \aleph _{\nu },\mathbb {P} (F_{x_{0}}^{n})=0} . Posons alors μ : P ( ν ) [ 0 ; 1 ] A P ( n A F x 0 n ) {\displaystyle \mu :{\begin{array}{ccl}{\mathcal {P}}(\aleph _{\nu })&\rightarrow &[0;1]\\A&\mapsto &\mathbb {P} \left(\biguplus _{n\in A}F_{x_{0}}^{n}\right)\end{array}}} . On vérifie que c'est une mesure bornée diffuse, elle est donc nécessairement nulle d'après le lemme (i), d'où P ( μ S ( x 0 + 1 ) ) = 0 {\displaystyle \mathbb {P} (\aleph _{\mu }\setminus S(x_{0}+1))=0} et P ( S ( x 0 + 1 ) ) = 1 {\displaystyle \mathbb {P} (S(x_{0}+1))=1} . D'après le lemme (ii), il existe une probabilité diffuse sur S ( x 0 + 1 ) {\displaystyle S(x_{0}+1)} qui est de cardinal au plus ν {\displaystyle \aleph _{\nu }} , ce qui contredit la minimalité de μ {\displaystyle \aleph _{\mu }} .

Proposition II —  μ {\displaystyle \aleph _{\mu }} est régulier i.e. il n'existe pas de ν < μ {\displaystyle \nu <\mu } et de suite ( A n ) n ν {\displaystyle (A_{n})_{n\in \aleph _{\nu }}} , avec A n {\displaystyle A_{n}} de cardinal < μ {\displaystyle <\aleph _{\mu }} tels que n ν A n = μ {\displaystyle \bigcup _{n\in \aleph _{\nu }}A_{n}=\aleph _{\mu }} .

En effet, supposons qu'il existe ν < μ {\displaystyle \nu <\mu } et une suite ( A n ) n ν {\displaystyle (A_{n})_{n\in \aleph _{\nu }}} d'ensembles, chacun de cardinal < μ {\displaystyle <\aleph _{\mu }} tels que n ν A n = μ {\textstyle \bigcup _{n\in \aleph _{\nu }}A_{n}=\aleph _{\mu }} . On peut alors poser, A 0 = A 0 {\displaystyle A'_{0}=A_{0}} et pour n μ {\displaystyle n\in \aleph _{\mu }} , A n = A n ( k < n A k ) {\textstyle A'_{n}=A_{n}\setminus \left(\bigcup _{k<n}A_{k}\right)} . Ainsi construits, les A n {\displaystyle A'_{n}} sont disjoints deux à deux. Q : P ( ν ) [ 0 ; 1 ] A P ( n A A n ) {\displaystyle \mathbb {Q} :{\begin{array}{ccl}{\mathcal {P}}(\aleph _{\nu })&\rightarrow &[0;1]\\A&\mapsto &\mathbb {P} (\biguplus _{n\in A}A'_{n})\end{array}}} est alors une probabilité sur ( ν , P ( ν ) ) {\displaystyle (\aleph _{\nu },{\mathcal {P}}(\aleph _{\nu }))} , qui a au moins un atome sinon cela contredirait la minimalité de μ {\displaystyle \aleph _{\mu }} . Il existe donc n 0 ν {\displaystyle n_{0}\in \aleph _{\nu }} tel que P ( A n 0 ) > 0 {\displaystyle \mathbb {P} (A'_{n_{0}})>0} , donc une probabilité diffuse sur ( A n 0 , P ( A n 0 ) ) {\displaystyle (A'_{n_{0}},{\mathcal {P}}(A'_{n_{0}}))} d'après le lemme (ii), ce qui est faux par minimalité de μ {\displaystyle \aleph _{\mu }} .

Références

  1. Stefan Banach et Casimir Kuratowski, « Sur une généralisation du problème de la mesure », Fundamenta Mathematicae, vol. 14,‎ , p. 127–131 (ISSN 0016-2736 et 1730-6329, DOI 10.4064/fm-14-1-127-131, lire en ligne, consulté le )
  2. Stanisław Ulam, « Zur Masstheorie in der allgemeinen Mengenlehre », Fundamenta Mathematicae, vol. 16, no 1,‎ , p. 140–150 (ISSN 0016-2736, lire en ligne, consulté le )
  3. Daniel Saada, « Les fondements du calcul des probabilités », Conférence APMEP,‎ (lire en ligne)
  4. Daniel SAADA, Tribus et Probabilités sur les univers infinis : deuxième édition, Rambouillet, Art et Poésie, , 340 p. (ISBN 978-2-9525437-5-0, lire en ligne), Chapitre 3
  • icône décorative Portail des mathématiques