Loi hypergéométrique

Cet article est une ébauche concernant les probabilités et la statistique.

Vous pouvez partager vos connaissances en l’améliorant (comment ?) selon les recommandations des projets correspondants.

Consultez la liste des tâches à accomplir en page de discussion.

Si ce bandeau n'est plus pertinent, retirez-le. Cliquez ici pour en savoir plus.
Si ce bandeau n'est plus pertinent, retirez-le. Cliquez ici pour en savoir plus.

Cet article ne cite pas suffisamment ses sources ().

Si vous disposez d'ouvrages ou d'articles de référence ou si vous connaissez des sites web de qualité traitant du thème abordé ici, merci de compléter l'article en donnant les références utiles à sa vérifiabilité et en les liant à la section « Notes et références ».

En pratique : Quelles sources sont attendues ? Comment ajouter mes sources ?

Loi hypergéométrique
Image illustrative de l’article Loi hypergéométrique
Fonction de masse
Image illustrative de l’article Loi hypergéométrique
Fonction de répartition

Paramètres N 0 , 1 , 2 , p [ 0 ; 1 ] n 0 , 1 , 2 , , N {\displaystyle {\begin{aligned}N&\in 0,1,2,\dots \\p&\in [0;1]\\n&\in 0,1,2,\dots ,N\end{aligned}}\,}
Support k max ( 0 , n q N ) , , min ( p N , n ) {\displaystyle \scriptstyle {k\,\in \,\max {(0,\,n-qN)},\,\dots ,\,\min {(pN,\,n)}}\,}
Fonction de masse ( p N k ) ( q N n k ) ( N n ) {\displaystyle {\frac {{pN \choose k}{qN \choose n-k}}{N \choose n}}}
Espérance n p {\displaystyle np\!}
Mode ( n + 1 ) ( p N + 1 ) N + 2 {\displaystyle \left\lfloor (n+1){\frac {(pN+1)}{N+2}}\right\rfloor }
Variance n p q ( N n ) ( N 1 ) {\displaystyle npq{\frac {(N-n)}{(N-1)}}}
Asymétrie ( N 2 n ) ( q p ) ( N 1 ) 1 2 [ n p q ( N n ) ] 1 2 ( N 2 ) {\displaystyle {\frac {(N-2n)(q-p)(N-1)^{\frac {1}{2}}}{[npq(N-n)]^{\frac {1}{2}}(N-2)}}}
Kurtosis normalisé ( N 1 ) [ N 2 ( 1 6 p q ) + N ( 1 6 n ) + 6 n 2 ] n p q ( N n ) ( N 2 ) ( N 3 ) {\textstyle {\frac {(N-1)[N^{2}(1-6pq)+N(1-6n)+6n^{2}]}{npq(N-n)(N-2)(N-3)}}}

+ 6 N 2 ( N 2 ) ( N 3 ) 6 {\displaystyle +{\frac {6N^{2}}{(N-2)(N-3)}}-6}

Fonction génératrice des moments ( q N n ) 2 F 1 ( n , p N ; q N n + 1 ; e t ) ( N n ) {\textstyle {\frac {{qN \choose n}{\,_{2}F_{1}(-n,-pN;qN-n+1;\mathrm {e} ^{t})}}{N \choose n}}\,\!}
Fonction caractéristique ( q N n ) 2 F 1 ( n , p N ; q N n + 1 ; e i t ) ( N n ) {\textstyle {\frac {{qN \choose n}{\,_{2}F_{1}(-n,-pN;qN-n+1;\mathrm {e} ^{\mathrm {i} t})}}{N \choose n}}}
modifier Consultez la documentation du modèle

La loi hypergéométrique de paramètres associés n {\displaystyle n} , p {\displaystyle p} et N {\displaystyle N} est une loi de probabilité discrète, décrivant le modèle suivant :

On tire simultanément (ou successivement sans remise (mais cela induit un ordre)) n {\displaystyle n} boules dans une urne contenant N 1 = p N {\displaystyle N_{1}=pN} boules gagnantes et N 2 = q N {\displaystyle N_{2}=qN} boules perdantes (avec q = 1 p {\displaystyle q=1-p} , soit un nombre total de boules valant p N + q N {\displaystyle pN+qN} = N {\displaystyle N} ). On compte alors le nombre de boules gagnantes extraites et on appelle X {\displaystyle X} la variable aléatoire donnant ce nombre.

Les valeurs pouvant être prises sont les entiers de 0 à n {\displaystyle n} . La variable X {\displaystyle X} suit alors la loi de probabilité définie par[1]

P ( X = k ) = P X ( k ) = ( p N k ) ( q N n k ) ( N n ) {\displaystyle \mathbb {P} (X=k)=\mathbb {P} _{X}(k)={\frac {{pN \choose k}{qN \choose n-k}}{N \choose n}}} (probabilité d'avoir k {\displaystyle k} succès).

Cette loi de probabilité s'appelle la loi hypergéométrique de paramètres ( n , p , N ) {\displaystyle (n,p,N)} et l'on note X H ( n , p , N ) {\displaystyle X\sim {\mathcal {H}}(n,p,N)} .

Il est nécessaire que p {\displaystyle p} soit un réel compris entre 0 et 1, que p N {\displaystyle pN} soit entier et que n N {\displaystyle n\leqslant N} . Lorsque ces conditions ne sont pas imposées, l'ensemble des possibles X ( Ω ) {\displaystyle X\!(\Omega )} est l'ensemble des entiers entre max ( 0 , n q N ) {\displaystyle \max(0,n-qN)} et min ( p N , n ) {\displaystyle \min(pN,n)} .

Exemple simple

Un lac renferme une centaine de poissons dont un quart sont des brochets. On pêche 10 poissons ; la loi du nombre X {\displaystyle X} de brochets dans la prise est H ( 10 , 1 / 4 , 100 ) {\displaystyle H(10,1/4,100)} .

On trouve alors pour les couples successifs ( k , P ( X = k ) ) {\displaystyle (k,\mathbb {P} (X=k))}  :

(0, 5%), (1, 18%), (2, 30%), (3, 26%), (4, 15%), (5, 5%), (6, 1%), (7, 0%), (8, 0%), (9, .0%), (10, 0%)

Donc un maximum de chances pour 2 ou 3 brochets. D'ailleurs, l'espérance du nombre de brochets vaut 10/4 = 2,5.

Calcul de la loi de probabilité

Il s'agit d'un tirage simultané (c'est-à-dire non ordonné et sans remise, même si la loi de probabilité resterait la même si l'on décidait d'ordonner le tirage car cela reviendrait à multiplier par n ! {\displaystyle n!} le numérateur et le dénominateur de la quantité P ( X = k ) {\displaystyle P(X=k)} ) de n {\displaystyle n} éléments parmi N {\displaystyle N} , tirage que l'on considère comme équiprobable.

La combinatoire permet de dire que le cardinal de l'univers est ( N n ) {\displaystyle \textstyle {N \choose n}} .

Tirage Resté dans l'urne Total
Succès k {\displaystyle k} p N k {\displaystyle pN-k} p N {\displaystyle pN}
Échecs n k {\displaystyle n-k} q N n + k {\displaystyle qN-n+k} q N {\displaystyle qN}
Total n {\displaystyle n} N n {\displaystyle N-n} N {\displaystyle N}

L'évènement { X = k } {\displaystyle \{X=k\}} (voir tableau) représente le cas où l'on a tiré k {\displaystyle k} boules gagnantes parmi p N {\displaystyle pN} et n k {\displaystyle n-k} boules perdantes parmi q N {\displaystyle qN} . Le cardinal de cet événement est donc ( p N k ) ( q N n k ) {\displaystyle \textstyle {pN \choose k}{qN \choose n-k}} .

La probabilité de l'évènement est donc P ( X = k ) = P X ( k ) = ( p N k ) ( q N n k ) ( N n ) {\displaystyle \mathbb {P} (X=k)=\mathbb {P} _{X}(k)={\frac {{pN \choose k}{qN \choose n-k}}{N \choose n}}} .
Remarque : comme pour toute densité de probabilité, la somme des P ( X = k ) {\displaystyle \mathbb {P} (X=k)} vaut 1, ce qui prouve l'identité de Vandermonde.

Espérance, variance et écart type

L'espérance d'une variable aléatoire X {\displaystyle X} suivant une loi hypergéométrique de paramètres ( n , p , N ) {\displaystyle (n,p,N)} , est la même que celle d'une variable binomiale de paramètres ( n , p ) {\displaystyle (n,p)}  : E ( X ) = n p {\displaystyle \mathbb {E} (X)=np\,} .

Démonstration

On se donne : X H ( n , p , N ) {\displaystyle X\sim {\mathcal {H}}(n,p,N)}

(si on se rapporte à un modèle d'urnes à tirage simultané, c'est-à-dire non ordonné et sans remise. On a donc N N = p N {\displaystyle N_{N}=pN}  : le nombre de boules de type "réussite" et N B = q N = ( 1 p ) N {\displaystyle N_{B}=qN=(1-p)N}  : le nombre de boules de type "échec".)

P ( X = k ) = ( N N k ) ( N B n k ) ( N n ) {\displaystyle \mathbb {P} (X=k)={\frac {{N_{N} \choose k}{N_{B} \choose n-k}}{N \choose n}}}

Numérotons de 1 à N N {\displaystyle N_{N}} les boules de type "réussite" et définissons pour tout k {\displaystyle k} compris entre 1 et N N {\displaystyle N_{N}} l'événement :

E k = { on a tiré parmi les    n    boules la boule de type réussite    k } {\displaystyle E_{k}=\{{\text{on a tiré parmi les }}\ n\ {\text{ boules la boule de type réussite }}\ k\}} .

Comme le nombre total X {\displaystyle X} de boules de type "réussite" tirées est X = k = 1 N N 1 E k {\displaystyle X=\sum _{k=1}^{N_{N}}\mathbf {1} _{E_{k}}\,}

(où 1 est la fonction indicatrice de E k {\displaystyle E_{k}} ), par linéarité de l'espérance, E ( X ) = N N P ( E 1 ) {\displaystyle \mathbb {E} (X)=N_{N}\mathbb {P} (E_{1})\,} .

Évaluons maintenant P ( E 1 ) {\displaystyle \mathbb {P} (E_{1})\,} . En passant au complémentaire,

P ( E 1 ) ¯ = ( N 1 n ) ( N n ) = ( N 1 ) ! n ! ( N 1 n ) ! n ! ( N n ) ! N ! = N n N {\displaystyle \mathbb {P} {\bar {(E_{1})}}={\frac {N-1 \choose n}{N \choose n}}={\frac {(N-1)!}{n!(N-1-n)!}}{\frac {n!(N-n)!}{N!}}={\frac {N-n}{N}}\,}

qui est la probabilité de ne jamais tirer une boule donnée.

Donc P ( E 1 ) = 1 N n N = n N = n N N + N B {\displaystyle \mathbb {P} (E_{1})=1-{\frac {N-n}{N}}={\frac {n}{N}}={\frac {n}{N_{N}+N_{B}}}\,}

On en conclut donc que E ( X ) = n N N N N + N B = n N N N {\displaystyle \mathbb {E} (X)={\frac {nN_{N}}{N_{N}+N_{B}}}={\frac {nN_{N}}{N}}\,}

En rappelant que N N N = p {\displaystyle {\frac {N_{N}}{N}}=p\,} qui est exactement la probabilité d'avoir un succès, on a bien E ( X ) = n p {\displaystyle \mathbb {E} (X)=np\,} .

La variance d'une variable aléatoire suivant une loi hypergéométrique de paramètres n , p , N {\displaystyle n,p,N} est n p q N n N 1 {\displaystyle npq{\frac {N-n}{N-1}}} , dont on remarque qu'elle tend vers la variance n p q {\displaystyle npq} de la variable binomiale précédente lorsque N {\displaystyle N} tend vers l'infini.

L'écart type est alors n p q N n N 1 {\displaystyle {\sqrt {npq}}{\sqrt {\frac {N-n}{N-1}}}} .

Convergence

Lorsque N {\displaystyle N} tend vers l'infini, la loi hypergéométrique converge vers une loi binomiale de paramètres n {\displaystyle n} et p {\displaystyle p} . D'ailleurs, intuitivement, pour N {\displaystyle N} grand, tirer simultanément n {\displaystyle n} boules revient à effectuer n {\displaystyle n} fois une épreuve de Bernoulli dont la probabilité de succès serait p {\displaystyle p} ( p {\displaystyle p} est la proportion de boules gagnantes dans l'ensemble des boules), car il est très peu probable de retomber sur la même boule, même si on la replace dans l'urne.

Démonstration de la convergence vers la loi binomiale

On décompose ( p N k ) ( q N n k ) ( N n ) {\displaystyle {\frac {{pN \choose k}{qN \choose n-k}}{N \choose n}}} en produit de trois termes :

( p N k ) ( q N n k ) ( N n ) = ( p N ) ! k ! ( p N k ) ! ( q N ) ! ( n k ) ! ( q N n + k ) ! n ! ( N n ) ! N ! = ( n k ) ( p N ) ! ( p N k ) ! ( q N ) ! ( q N n + k ) ! ( N n ) ! N ! {\displaystyle {\begin{aligned}{\frac {{pN \choose k}{qN \choose n-k}}{N \choose n}}&={\frac {(pN)!}{k!(pN-k)!}}\cdot {\frac {(qN)!}{(n-k)!(qN-n+k)!}}\cdot {\frac {n!(N-n)!}{N!}}\\&={n \choose k}{\frac {(pN)!}{(pN-k)!}}\cdot {\frac {(qN)!}{(qN-n+k)!}}\cdot {\frac {(N-n)!}{N!}}\end{aligned}}}
  • Pour le premier terme : ( p N ) ! ( p N k ) ! = 1 2 3 . . . p N 1 2 3 . . . ( p N k ) = p N ( p N 1 ) . . . ( p N k + 1 ) {\displaystyle {\frac {(pN)!}{(pN-k)!}}={\frac {1\cdot 2\cdot 3\cdot \,...\,\cdot pN}{1\cdot 2\cdot 3\cdot \,...\,\cdot (pN-k)}}=pN\cdot (pN-1)\cdot \,...\,\cdot (pN-k+1)}

Pour N + {\displaystyle N\rightarrow +\infty } , on a l'équivalent :

( p N ) ! ( p N k ) ! ( p N ) k = i = 1 k p N k + i p N = i = 1 k ( 1 + o N + ( 1 ) ) = 1 + o N + ( 1 ) {\displaystyle {\frac {(pN)!}{(pN-k)!(pN)^{k}}}=\prod _{i=1}^{k}{\frac {pN-k+i}{pN}}=\prod _{i=1}^{k}(1+o_{N\rightarrow +\infty }(1))=1+o_{N\rightarrow +\infty }(1)}

et l'on obtient p N ! ( p N k ) ! N + ( p N ) k {\displaystyle {\frac {pN!}{(pN-k)!}}{\underset {N\rightarrow +\infty }{\sim }}(pN)^{k}}

  • Le même raisonnement pour le second terme permet d'obtenir : ( q N ) ! ( q N n + k ) ! N + ( q N ) n k {\displaystyle {\frac {(qN)!}{(qN-n+k)!}}{\underset {N\rightarrow +\infty }{\sim }}(qN)^{n-k}} .
  • Enfin, pour le troisième terme : N ! ( N n ) ! N + N n {\displaystyle {\frac {N!}{(N-n)!}}{\underset {N\rightarrow +\infty }{\sim }}N^{n}} .

En conclusion, on a : ( p N k ) ( q N n k ) ( N n ) N + ( n k ) ( p N ) k ( q N ) n k N n = ( n k ) p k q n k {\displaystyle {\frac {{pN \choose k}{qN \choose n-k}}{N \choose n}}{\underset {N\rightarrow +\infty }{\sim }}{n \choose k}{\frac {(pN)^{k}(qN)^{n-k}}{N^{n}}}={n \choose k}p^{k}q^{n-k}}

Il s'agit bien d'une loi binomiale de paramètres ( n , p ) {\displaystyle (n,p)} .

En pratique, on peut approcher la loi hypergéométrique de paramètres ( n , p , N ) {\displaystyle (n,p,N)} par une loi binomiale de paramètres ( n , p ) {\displaystyle (n,p)} dès que n / N < 0 , 1 {\displaystyle n/N<0,1} , c'est-à-dire lorsque l'échantillon n {\displaystyle n} est 10 fois plus petit que la population N {\displaystyle N} .

Un exemple très classique de ce remplacement concerne les sondages. On considère fréquemment un sondage de n {\displaystyle n} personnes comme n {\displaystyle n} sondages indépendants alors qu'en réalité le sondage est exhaustif (on n'interroge jamais deux fois la même personne). Comme n {\displaystyle n} (nombre de personnes interrogées) < N {\displaystyle N} (population sondée)/10, cette approximation est légitime.

Origine de l'appellation hypergéométrique

L'appellation "loi hypergéométrique" vient du fait que sa série génératrice E ( x X ) = k = 0 n P ( X = k ) x k {\displaystyle E(x^{X})=\sum _{k=0}^{n}\mathbb {P} (X=k)x^{k}} est un cas particulier de série hypergéométrique, série généralisant la série géométrique. En effet P ( X = k + 1 ) P ( X = k ) = ( N 1 k ) ( n k ) ( k + 1 ) ( N 2 n + k + 1 ) {\displaystyle {\frac {\mathbb {P} (X=k+1)}{\mathbb {P} (X=k)}}={\frac {(N_{1}-k)(n-k)}{(k+1)(N_{2}-n+k+1)}}} est bien une fraction rationnelle en k {\displaystyle k} .

Lien externe

(en) Eric W. Weisstein, « Hypergeometric Distribution », sur MathWorld

Notes et références

  1. (en) Jay L. Devore, Kenneth N. Berk et Matthew A. Carlton, Modern Mathematical Statistics with Applications, Springer International Publishing, coll. « Springer Texts in Statistics », (ISBN 978-3-030-55155-1 et 978-3-030-55156-8, DOI 10.1007/978-3-030-55156-8, lire en ligne)
v · m
Lois discrètes
à support fini
0 paramètre de forme
1 paramètre de forme
2 paramètres de forme
3 paramètres de forme
N paramètres de forme
à support infini
0 paramètre de forme
1 paramètre de forme
2 paramètres de forme
3 paramètres de forme
Lois absolument continues
à support compact
0 paramètre de forme
1 paramètre de forme
2 paramètres de forme
3 paramètres de forme
à support semi-infini
0 paramètre de forme
1 paramètre de forme
2 paramètres de forme
3 paramètres de forme
N paramètres de forme
à support infini
0 paramètre de forme
1 paramètre de forme
2 paramètres de forme
Autres types de lois
Lois à support mixte continu-discret
Lois à support variable
Lois multidimensionnelles
Discrètes
Continues
Matricielles
Lois directionnelles
Univariantes
Sphériques bidimensionnelles
Toroïdales bidimensionnelles
Multidimensionnelles
Lois singulières
Familles de lois
  • icône décorative Portail des probabilités et de la statistique