Fonction de répartition empirique

100 visualisations d'une fonction de distribution empirique, générées à l'aide de JavaScript

En statistiques, une fonction de répartition empirique est une fonction de répartition qui attribue la probabilité 1/n à chacun des n nombres dans un échantillon.

Soit X1,...,Xn un échantillon de variables iid définies sur un espace de probabilité ( Ω , A , P ) {\displaystyle (\Omega ,{\mathcal {A}},\mathbb {P} )} , à valeurs dans R {\displaystyle \mathbb {R} } , avec pour fonction de répartition F. La fonction de répartition empirique F n {\displaystyle F_{n}} de l'échantillon X 1 , , X n {\displaystyle X_{1},\ldots ,X_{n}} est définie par :

x R , ω Ω , F n ( x , ω ) = n o m b r e   d e ´ l e ´ m e n t s x d a n s   l e ´ c h a n t i l l o n n = 1 n i = 1 n 1 X i ( ω ) x {\displaystyle \forall x\in \mathbb {R} ,\forall \omega \in \Omega ,F_{n}(x,\omega )={\frac {\mathrm {nombre~d'{\acute {e}}l{\acute {e}}ments} \,\leq x\,\mathrm {dans~l'{\acute {e}}chantillon} }{n}}={\frac {1}{n}}\sum _{i=1}^{n}\mathbf {1} _{X_{i}(\omega )\leq x}}

1 A {\displaystyle \mathbf {1} _{A}} est la fonction indicatrice de l'événement A.

Pour chaque ω, l'application x F n ( x , ω ) {\displaystyle x\to F_{n}(x,\omega )} est une fonction en escalier, fonction de répartition de la loi de probabilité uniforme sur l'ensemble { X 1 ( ω ) , , X n ( ω ) } {\displaystyle \{X_{1}(\omega ),\dots ,X_{n}(\omega )\}} .

Pour chaque x, la variable aléatoire 1 ( X i x ) {\displaystyle \mathbf {1} _{(X_{i}\leq x)}} est une variable aléatoire de Bernoulli, de paramètre p=F(x). Par conséquent, la variable aléatoire ω n F n ( x , ω ) {\displaystyle \omega \to nF_{n}(x,\omega )} , qu'on notera n F n ( x , . ) {\displaystyle nF_{n}(x,.)} , est distribuée selon une loi binomiale, avec pour moyenne nF(x) et pour variance nF(x)(1 − F(x)). En particulier, Fn(x) est un estimateur non-biaisé de F(x).

Propriétés asymptotiques

pour tout x, F n ( x , . ) F ( x ) {\displaystyle F_{n}(x,.)\to F(x)} presque sûrement.
n ( F n ( x , . ) F ( x ) ) {\displaystyle {\sqrt {n}}(F_{n}(x,.)-F(x))} converge en loi vers une loi normale N ( 0 , F ( x ) ( 1 F ( x ) ) {\displaystyle {\mathcal {N}}(0,F(x)(1-F(x))} pour un x fixé.
Le théorème de Berry–Esseen procure le taux de convergence.
F n F = sup x R F n ( x , . ) F ( x )   n   0 {\displaystyle \|F_{n}-F\|_{\infty }=\sup _{x\in \mathbb {R} }\|F_{n}(x,.)-F(x)\|~{\xrightarrow[{n\to \infty }]{}}~0} presque sûrement.
L' inégalité de Dvoretzky-Kiefer-Wolfowitz procure le taux de convergence.
n F n F {\displaystyle {\sqrt {n}}\|F_{n}-F\|_{\infty }} converge en distribution vers la distribution de Kolmogorov, à condition que F soit continue.
Le test de Kolmogorov-Smirnov de goodness-of-fit est basé sur ce fait.
n ( F n F ) {\displaystyle {\sqrt {n}}(F_{n}-F)} , en tant que processus indexé par x, converge faiblement dans ( R ) {\displaystyle \ell ^{\infty }(\mathbb {R} )} vers un pont brownien B(F(x)).

Bibliographie

  • (en) Galen R. Shorack et Jon A. Wellner, Empirical Processes With Applications to Statistics, Society for Industrial & Applied Mathematics, , 998 p. (ISBN 978-0-89871-684-9 et 0-89871-684-5, lire en ligne)
  • van der Vaart, A.W. and Wellner, J.A. (1996) "Weak Convergence and Empirical Processes", Springer. (ISBN 0-387-94640-3).
v · m
Index du projet probabilités et statistiques
Théorie des probabilités
Bases théoriques
Principes généraux
Convergence de lois
Calcul stochastique
Lois de probabilité
Lois continues
Lois discrètes
Mélange entre statistiques et probabilités
Interprétations de la probabilité
Théorie des statistiques
Statistiques descriptives
Bases théoriques
Tableaux
Visualisation de données
Paramètres de position
Paramètres de dispersion
Paramètres de forme
Statistiques inductives
Bases théoriques
Tests paramétriques
Tests non-paramétriques
Application
  • icône décorative Portail des probabilités et de la statistique