Rozkład Poissona

Rozkład Poissona
Funkcja rozkładu prawdopodobieństwa
Ilustracja
Na osi poziomej jest indeks k . {\displaystyle k.} Funkcja jest zdefiniowana tylko dla całkowitych wartości k . {\displaystyle k.} Linie łączące te punkty są jedynie konwencją wykresu i nie oznaczają ciągłości.
Dystrybuanta
Ilustracja
Na osi poziomej jest indeks k {\displaystyle k}
Parametry

λ ( 0 , ) {\displaystyle \lambda \in (0,\infty )}

Nośnik

{ 0 , 1 , 2 , } {\displaystyle \{0,1,2,\dots \}}

Funkcja rozkładu prawdopodobieństwa

e λ λ k k ! {\displaystyle {\tfrac {e^{-\lambda }\lambda ^{k}}{k!}}}

Dystrybuanta

Γ ( k + 1 , λ ) k !  dla  k 0 {\displaystyle {\tfrac {\Gamma (\lfloor k+1\rfloor ,\lambda )}{\lfloor k\rfloor !}}\!{\text{ dla }}k\geqslant 0} (gdzie Γ ( x , y ) {\displaystyle \Gamma (x,y)} to niekompletna funkcja gamma)

Wartość oczekiwana (średnia)

λ {\displaystyle \lambda }

Mediana

λ + 1 3 0 , 02 λ {\displaystyle \approx \lfloor \lambda +{\tfrac {1}{3}}-{\tfrac {0{,}02}{\lambda }}\rfloor }

Moda

λ {\displaystyle \lfloor \lambda \rfloor } i λ 1 , {\displaystyle \lambda -1,} gdzie λ {\displaystyle \lambda } jest całkowite

Wariancja

λ {\displaystyle \lambda }

Współczynnik skośności

λ 1 / 2 {\displaystyle \lambda ^{-1/2}}

Kurtoza

λ 1 {\displaystyle \lambda ^{-1}}

Entropia

λ [ 1 ln ( λ ) ] + e λ k = 0 λ k ln ( k ! ) k ! {\displaystyle \lambda [1\!-\!\ln(\lambda )]\!+\!e^{-\lambda }\sum _{k=0}^{\infty }{\tfrac {\lambda ^{k}\ln(k!)}{k!}}}
dla dużych λ : {\displaystyle \lambda {:}}
1 2 log ( 2 π e λ ) {\displaystyle {\tfrac {1}{2}}\log(2\pi e\lambda )} 1 12 λ {\displaystyle -{\tfrac {1}{12\lambda }}} 1 24 λ 2 {\displaystyle -{\tfrac {1}{24\lambda ^{2}}}} 19 360 λ 3 {\displaystyle -{\tfrac {19}{360\lambda ^{3}}}} + O ( 1 λ 4 ) {\displaystyle +O({\tfrac {1}{\lambda ^{4}}})}

Funkcja tworząca momenty

exp ( λ ( e t 1 ) ) {\displaystyle \exp(\lambda (e^{t}-1))}

Funkcja charakterystyczna

exp ( λ ( e i t 1 ) ) {\displaystyle \exp(\lambda (e^{it}-1))}

Odkrywca

Siméon Denis Poisson
(rozkład pierwszy raz pod tą nazwą wystąpił u H.E. Sopera)

Rozkład Poissona (czytaj [pwasɔ̃], także prawo Poissona małych liczb[1]) – dyskretny rozkład prawdopodobieństwa, wyrażający prawdopodobieństwo szeregu wydarzeń mających miejsce w określonym czasie, gdy te wydarzenia występują ze znaną średnią częstotliwością i w sposób niezależny od czasu jaki upłynął od ostatniego zajścia takiego zdarzenia. Rozkład Poissona można również stosować w odniesieniu do liczby zdarzeń w innych określonych przedziałach, takich jak odległość, powierzchnia lub objętość.

Rozkład został wprowadzony i opublikowany przez Siméona-Denisa Poissona (1781–1840) wraz z jego teorią prawdopodobieństwa, w 1838 roku w jego pracy Recherches sur la probabilité des jugements en matière criminelle et en matière civile („Badania nad prawdopodobieństwem orzeczeń sądowych w sprawach cywilnych i karnych”). Praca skupiała się na niektórych zmiennych losowych N {\displaystyle N} wyrażających, między innymi, liczbę dyskretnych zdarzeń, które odbywają się w przedziale czasu, o określonej długości.

Jeśli oczekiwaną liczbą zdarzeń w tym przedziale jest λ , {\displaystyle \lambda ,} to prawdopodobieństwo, że jest dokładnie k {\displaystyle k} wystąpień, gdzie k {\displaystyle k} jest nieujemną liczbą całkowitą, k = 0 , 1 , 2 , {\displaystyle k=0,1,2,\dots } jest równe

f ( k , λ ) = λ k e λ k ! , {\displaystyle f(k,\lambda )={\frac {\lambda ^{k}e^{-\lambda }}{k!}},}

gdzie:

e {\displaystyle e} – podstawa logarytmu naturalnego e = 2,718 28 , {\displaystyle e=2{,}71828\dots ,}
k {\displaystyle k} – liczba wystąpień zdarzenia, prawdopodobieństwo dane funkcją,
k ! {\displaystyle k!} silnia k , {\displaystyle k,}
λ {\displaystyle \lambda } dodatnia liczba rzeczywista, równa oczekiwanej liczbie zdarzeń w danym przedziale czasu. Na przykład jeżeli zdarzenia występują średnio 4 razy na minutę, a ktoś jest zainteresowany prawdopodobieństwem zdarzenia k {\displaystyle k} razy występującego w 10 minut, może użyć rozkładu Poissona jako model z λ = 10 4 = 40. {\displaystyle \lambda =10\cdot 4=40.}

Jako funkcja k {\displaystyle k} jest to funkcja masy prawdopodobieństwa. Rozkład Poissona można wyprowadzić jako graniczny przypadek rozkładu dwumianowego.

Rozkład Poissona może być stosowany do systemów z dużą liczbą możliwych zdarzeń, z których każde jest bardzo rzadkie. Klasycznym przykładem jest rozpad jąder atomowych.

Rozkład Poissona jest czasami nazywany „poissonianem”.

Charakterystyka szumu Poissona i małych zdarzeń

Parametr λ {\displaystyle \lambda } jest nie tylko średnią liczbą wystąpień E [ k ] , {\displaystyle E[k],} ale także ich wariancją σ k 2 = E [ k 2 ] E [ k ] 2 {\displaystyle \sigma _{k}^{2}=E[k^{2}]-E[k]^{2}} (patrz tabela). Tym samym liczba zaobserwowanych zdarzeń oscyluje wokół średniej λ {\displaystyle \lambda } z odchyleniem standardowym σ k = λ . {\displaystyle \sigma _{k}={\sqrt {\lambda }}.} Wahania te są oznaczone jako szum Poissona lub (zwłaszcza w elektronice) jako szum śrutowy.

Korelacja średniej i odchylenie standardowe w liczeniu niezależnych zdarzeń dyskretnych jest przydatna naukowo. Dzięki monitorowaniu jak wahania różnią się od średniej sygnału, można oszacować wkład jednego zdarzenia, nawet jeśli ten wkład jest zbyt mały do wykrycia bezpośrednio. Na przykład ładunek e elektronu może być określony poprzez skorelowanie wielkości prądu elektrycznego z jego szumem śrutowym. Jeżeli przez punkt przechodzi w czasie t {\displaystyle t} średnio N {\displaystyle N} elektronów, średni prąd jest równy I = e N / t , {\displaystyle I=eN/t,} ponieważ wahania prądu powinny być rzędu σ I = e N / t {\displaystyle \sigma _{I}=e{\sqrt {N}}/t} (tj. standardowe odchylenie procesu Poissona), ładunek e {\displaystyle e} może być oszacowany ze współczynnika σ I 2 / I . {\displaystyle \sigma _{I}^{2}/I.} Codziennym przykładem jest ziarnistość, która pojawia się przy powiększeniach fotografii, ziarnistość ta pojawia się w związku z wahaniami Poissona w ograniczonej liczbie ziaren srebra, a nie w związku z pojedynczymi ziarnami. Korelując ziarnistość ze stopniem powiększenia, można oszacować udział indywidualnych ziaren (które są zbyt małe, aby je inaczej postrzegać samodzielnie). Opracowano wiele innych zastosowań molekularnych szumu Poissona, np. szacowanie gęstości liczby cząsteczek receptora w błonie komórkowej

Pr ( N t = k ) = f ( k ; λ t ) = e λ t ( λ t ) k k ! . {\displaystyle \Pr(N_{t}=k)=f(k;\lambda t)={\frac {e^{-\lambda t}(\lambda t)^{k}}{k!}}.}

Rozkłady powiązane

  • Jeśli X 1 P o i s ( λ 1 ) , {\displaystyle X_{1}\sim \mathrm {Pois} (\lambda _{1}),} i X 2 P o i s ( λ 2 ) , {\displaystyle X_{2}\sim \mathrm {Pois} (\lambda _{2}),} to różnica Y = X 1 X 2 {\displaystyle Y=X_{1}-X_{2}} ma rozkład Skellama.
  • Jeśli X 1 P o i s ( λ 1 ) {\displaystyle X_{1}\sim \mathrm {Pois} (\lambda _{1})} i X 2 P o i s ( λ 2 ) {\displaystyle X_{2}\sim \mathrm {Pois} (\lambda _{2})} są niezależne, a Y = X 1 + X 2 , {\displaystyle Y=X_{1}+X_{2},} to rozkład X 1 {\displaystyle X_{1}} pod warunkiem Y = y {\displaystyle Y=y} jest dwumianowy. W szczególności, X 1 | ( Y = y ) B i n o m ( y , λ 1 / ( λ 1 + λ 2 ) ) . {\displaystyle X_{1}|(Y=y)\sim \mathrm {Binom} (y,\lambda _{1}/(\lambda _{1}+\lambda _{2})).} Ogólnie rzecz biorąc, jeśli X 1 , X 2 , , X n {\displaystyle X_{1},X_{2},\dots ,X_{n}} są niezależnymi zmiennymi losowymi Poissona z parametrami λ 1 , λ 2 , , λ n , {\displaystyle \lambda _{1},\lambda _{2},\dots ,\lambda _{n},} wtedy
X i | j = 1 n X j B i n o m ( j = 1 n X j , λ i j = 1 n λ j ) . {\displaystyle X_{i}\left|\sum _{j=1}^{n}X_{j}\right.\sim \mathrm {Binom} \left(\sum _{j=1}^{n}X_{j},{\frac {\lambda _{i}}{\sum _{j=1}^{n}\lambda _{j}}}\right).}
  • Rozkład Poissona może zostać wyprowadzony jako graniczny przypadek rozkładu dwumianowego gdy liczba prób dąży do nieskończoności a oczekiwana liczba sukcesów jest stała – patrz prawo rzadkich zdarzeń poniżej. Może być on zatem stosowany jako przybliżenie rozkład dwumianowego gdy liczba n {\displaystyle n} jest wystarczająco duża i p {\displaystyle p} jest dostatecznie małe. Istnieje praktyczna reguła, stwierdzająca, że rozkład Poissona jest dobrym przybliżeniem rozkładu dwumianowego, jeśli n {\displaystyle n} jest co najmniej 20 i p {\displaystyle p} jest mniejsza lub równa 0,05, oraz bardzo dobrym przybliżeniem, jeśli n 100 {\displaystyle n\geqslant 100} i n p 10 {\displaystyle np\leqslant 10} [2].
  • Dla dostatecznie dużych wartości λ {\displaystyle \lambda } (powiedzmy λ > 1000 {\displaystyle \lambda >1000} ), rozkład normalny ze średnią λ {\displaystyle \lambda } i wariancją λ {\displaystyle \lambda } (odchylenie standardowe λ {\displaystyle {\sqrt {\lambda }}} ), jest znakomitym przybliżeniem rozkładu Poissona. Jeśli λ {\displaystyle \lambda } jest większe niż około 10 wtedy rozkład normalny jest dobrym przybliżeniem, jeżeli są wykonywane odpowiednie korekty ciągłości, tj. P ( X x ) , {\displaystyle {\text{P}}(X\leqslant x),} gdzie (małą literą) x {\displaystyle x} jest liczbą całkowitą nieujemną, otrzymuje P ( X x + 0 , 5 ) . {\displaystyle {\text{P}}(X\leqslant x+0,5).}
F P o i s s o n ( x ; λ ) F n o r m a l ( x ; μ = λ , σ 2 = λ ) . {\displaystyle F_{\mathrm {Poisson} }(x;\lambda )\approx F_{\mathrm {normal} }(x;\mu =\lambda ,\sigma ^{2}=\lambda ).}
  • Transformacja stabilizująca wariancję: gdy zmienna ma rozkład Poissona, jej pierwiastek kwadratowy ma w przybliżeniu rozkład normalny z wartością oczekiwaną około λ {\displaystyle {\sqrt {\lambda }}} i wariancją około 1/4[3]. W ramach tej transformacji, zbieżność do normalności jest znacznie szybsza niż zmiennej przed transformacją. Są dostępne inne, nieco bardziej skomplikowane transformacje stabilizujące wariancję[4] z których jedna jest transformacja Anscombe'a. Zobacz transformacja danych (statystyka) do bardziej ogólnego zastosowania przekształceń.
  • Jeśli liczba zajść zdarzenia w danym przedziale czasu [ 0 , t ] {\displaystyle [0,t]} jest zgodna z rozkładem Poissona, ze średnią = λ t , {\displaystyle =\lambda t,} wtedy długość okresu oczekiwania pomiędzy zajściami zdarzenia ma rozkład wykładniczy ze średnią 1 / λ . {\displaystyle 1/\lambda .}

Występowanie

Rozkład Poissona powstaje w związku z procesami Poissona. Ma on zastosowanie do różnych zjawisk dyskretnych właściwości (czyli tych, które mogą się zdarzyć 0 , 1 , 2 , 3 , {\displaystyle 0,1,2,3,\dots } razy w danym przedziale czasu lub w danym obszarze), gdy prawdopodobieństwo wystąpienia zjawiska jest stałe w czasie lub przestrzeni. Przykłady zdarzeń, które mogą być modelowane rozkładem Poissona to:

  • Liczba zabitych przez kopnięcie konia każdego roku w korpusie kawalerii w Prusach. Ten przykład zasłynął z książki Władysława Józefowicza Bortkiewicza (1868–1931).
  • Liczba połączeń telefonów przychodzących do centrali na minutę.
  • Przy założeniu jednorodności, ile razy serwer jest dostępny na minutę.
  • Liczba mutacji w danym odcinku DNA po ekspozycji na pewną dawkę promieniowania.
  • Odsetek komórek, które zostaną zakażone dla danej liczności zakażeń.

W jaki sposób powstają takie rozkłady? – Prawo rzadkich zdarzeń

Porównanie rozkładu Poissona (czarne słupki) i rozkładu dwumianowego dla n = 10 {\displaystyle n=10} (czerwone kółka), n = 20 {\displaystyle n=20} (niebieskie kółka), n = 100 {\displaystyle n=100} (zielone kółka). Wszystkie rozkłady mają wartość oczekiwaną równą 5. Oś pozioma pokazuje liczbę zdarzeń k . {\displaystyle k.} Należy zauważyć, że gdy n {\displaystyle n} rośnie, rozkład Poissona staje się coraz lepszym przybliżeniem rozkładu dwumianowego o tej samej wartości oczekiwanej.

W kilku z powyższych przykładów – takich jak liczba mutacji w danej sekwencji DNA – zdarzenia które są liczone są w wynikami pojedynczych prób, a dokładniej są modelowane przy użyciu rozkładu dwumianowego, to jest

X B ( n , p ) . {\displaystyle X\sim {\textrm {B}}(n,p).}

W takich przypadkach n {\displaystyle n} jest bardzo duże, a p {\displaystyle p} jest bardzo małe (i tak oczekiwane n p {\displaystyle np} jest pośrednich rozmiarów). Rozkład może być wtedy przybliżany przez mniej uciążliwy rachunkowo rozkład Poissona

X Pois ( n p ) . {\displaystyle X\sim {\textrm {Pois}}(np).}

To jest znane jako prawo rzadkich zdarzeń, gdyż każde z poszczególnych zdarzeń Bernoulliego n {\displaystyle n} rzadko występuje. Nazwa może być myląca, ponieważ całkowita liczba zajścia sukcesu w procesie Poissona nie musi być mała, jeśli parametr n p {\displaystyle np} nie jest mały. Na przykład liczba telefonów do zajętej centrali w ciągu jednej godziny stosuje się do rozkładu Poissona ze zdarzeniami pojawiającymi się często u operatora, ale są one rzadkie z punktu widzenia przeciętnego członka społeczeństwa, u którego jest bardzo mało prawdopodobne, by dzwonił do centrali w tej godzinie.

Dowód

Będziemy dowodzić, że dla stałych λ , {\displaystyle \lambda ,} jeśli

X n B ( n , λ / n ) ; Y Pois ( λ ) . {\displaystyle X_{n}\sim {\textrm {B}}(n,\lambda /n);\qquad Y\sim {\textrm {Pois}}(\lambda ).}

to dla każdego ustalonego k

lim n P ( X n = k ) = P ( Y = k ) . {\displaystyle \lim _{n\to \infty }P(X_{n}=k)=P(Y=k).}

Aby zobaczyć związek z powyższym uzasadnieniem, dla każdej zmiennej losowej o rozkładzie dwumianowym z dużych n {\displaystyle n} i małych p , {\displaystyle p,} ustalmy λ = n p . {\displaystyle \lambda =np.} Należy zauważyć, że wartość oczekiwania E ( X n ) = λ {\displaystyle E(X_{n})=\lambda } jest stała względem n . {\displaystyle n.}

Po pierwsze, przypomnijmy, że

lim n ( 1 λ n ) n = e λ , {\displaystyle \lim _{n\to \infty }\left(1-{\frac {\lambda }{n}}\right)^{n}=e^{-\lambda },}

wtedy ponieważ p = λ / n , {\displaystyle p=\lambda /n,} w tym przypadku mamy

lim n P ( X n = k ) = lim n ( n k ) p k ( 1 p ) n k = lim n n ! ( n k ) ! k ! ( λ n ) k ( 1 λ n ) n k = lim n [ n ! n k ( n k ) ! ] A n ( λ k k ! ) ( 1 λ n ) n exp ( λ ) ( 1 λ n ) k 1 = [ lim n A n ] ( λ k k ! ) exp ( λ ) {\displaystyle {\begin{aligned}\lim _{n\to \infty }P(X_{n}=k)&=\lim _{n\to \infty }{n \choose k}p^{k}(1-p)^{n-k}\\&=\lim _{n\to \infty }{\frac {n!}{(n-k)!k!}}\left({\frac {\lambda }{n}}\right)^{k}\left(1-{\frac {\lambda }{n}}\right)^{n-k}\\&=\lim _{n\to \infty }\underbrace {\left[{\frac {n!}{n^{k}(n-k)!}}\right]} _{A_{n}}\left({\frac {\lambda ^{k}}{k!}}\right)\underbrace {\left(1-{\frac {\lambda }{n}}\right)^{n}} _{\to \exp(-\lambda )}\underbrace {\left(1-{\frac {\lambda }{n}}\right)^{-k}} _{\to 1}\\&=\left[\lim _{n\to \infty }A_{n}\right]\left({\frac {\lambda ^{k}}{k!}}\right)\exp(-\lambda )\end{aligned}}}

Dalej, należy pamiętać, że

A n = n ! n k ( n k ) ! = n ( n 1 ) ( n ( k 1 ) ) n k = 1 ( 1 1 n ) ( 1 k 1 n ) 1 1 1 = 1 , {\displaystyle {\begin{aligned}A_{n}&={\frac {n!}{n^{k}(n-k)!}}\\&={\frac {n\cdot (n-1)\ldots {\big (}n-(k-1){\big )}}{n^{k}}}\\&=1\cdot (1-{\tfrac {1}{n}})\ldots (1-{\tfrac {k-1}{n}})\\&\to 1\cdot 1\ldots 1=1,\end{aligned}}}

gdzie rozpatrujemy granicę każdego z członów niezależnie, co można zrobić, ponieważ liczba członów zależnych od n {\displaystyle n} jest stała (jest ich k {\displaystyle k} ). W związku z tym, musimy wykazać, że

lim n P ( X n = k ) = λ k exp ( λ ) k ! = P ( Y = k ) . {\displaystyle \lim _{n\to \infty }P(X_{n}=k)={\frac {\lambda ^{k}\exp(-\lambda )}{k!}}=P(Y=k).}

Uogólnienie

Wykazaliśmy, że jeżeli

X n B ( n , p n ) ; Y Pois ( λ ) , {\displaystyle X_{n}\sim {\textrm {B}}(n,p_{n});\qquad Y\sim {\textrm {Pois}}(\lambda ),}

gdzie p n = λ / n , {\displaystyle p_{n}=\lambda /n,} a następnie X n Y {\displaystyle X_{n}\to Y} w rozkładzie. Odnosi się to w bardziej ogólnej sytuacji, że p n {\displaystyle p_{n}} jest dowolny ciąg taki, że

lim n n p n = λ . {\displaystyle \lim _{n\to \infty }np_{n}=\lambda .}

2-wymiarowy proces Poissona

 Osobny artykuł: Proces Poissona.
P ( N ( D ) = k ) = ( λ | D | ) k e λ | D | k ! , {\displaystyle P(N(D)=k)={\frac {(\lambda |D|)^{k}e^{-\lambda |D|}}{k!}},}

gdzie:

e {\displaystyle e} podstawa logarytmu naturalnego e = 2,718 28 , {\displaystyle e=2{,}71828\dots ,}
k {\displaystyle k} – liczba wystąpień zdarzenia – prawdopodobieństwo, dane funkcją,
k ! {\displaystyle k!} silnia k , {\displaystyle k,}
D {\displaystyle D} – 2-wymiarowy obszar,
| D | {\displaystyle |D|} – pole obszaru,
N ( D ) {\displaystyle N(D)} – liczba punktów w procesie rozwoju w obszarze.

Własności

  • Wartość oczekiwana rozkładu Poissona zmiennej losowej jest równa λ {\displaystyle \lambda } i jest też ona równa jego wariancji. Wyższe momenty rozkładu Poissona są wielomianami Toucharda z parametrem λ , {\displaystyle \lambda ,} których współczynniki mają kombinatoryczne znaczenie. W rzeczywistości, gdy wartość oczekiwana rozkładu Poissona jest 1, to wzór Dobińskiego mówi, że n {\displaystyle n} -ty moment jest równy liczbie podziałów zbioru n {\displaystyle n} -elementowego.
  • Dominanta zmiennej losowej o rozkładzie Poissona z niecałkowitą λ {\displaystyle \lambda } jest równa λ , {\displaystyle \lfloor \lambda \rfloor ,} która jest największą liczbę całkowitą mniejszą lub równą λ . {\displaystyle \lambda .} To jest również zapisane jako podłoga ( λ ) . {\displaystyle (\lambda ).} Gdy λ {\displaystyle \lambda } jest liczbą całkowitą, mody są równe λ {\displaystyle \lambda } i λ 1. {\displaystyle \lambda -1.}
  • Sumy zmiennych losowych o rozkładach Poissona:
Jeśli X i P o i s ( λ i ) {\displaystyle X_{i}\sim \mathrm {Pois} (\lambda _{i})} mają rozkład Poissona z parametrem λ i {\displaystyle \lambda _{i}} i X i {\displaystyle X_{i}} niezależne, to
Y = i = 1 N X i P o i s ( i = 1 N λ i ) {\displaystyle Y=\sum _{i=1}^{N}X_{i}\sim \mathrm {Pois} \left(\sum _{i=1}^{N}\lambda _{i}\right)}
również ma rozkład Poissona o parametrze będącym sumą parametrów składowych. Odwrotne jest twierdzenie Rajkowa, które mówi, że jeśli suma dwóch niezależnych zmiennych losowych ma rozkład Poissona, to ma go również każda z tych dwóch niezależnych zmiennych losowych.
  • Suma znormalizowanych odchyleń kwadratowych ma w przybliżeniu rozkład chi kwadrat, jeśli średnia jest umiarkowanej wielkości (zalecana jest λ > 5 {\displaystyle \lambda >5} )[5]. Jeśli X 1 , , X N {\displaystyle X_{1},\dots ,X_{N}} są obserwacjami z niezależnych rozkładów Poissona ze średnimi λ 1 , , λ N {\displaystyle \lambda _{1},\dots ,\lambda _{N}} wtedy i = 1 N ( X i λ i ) 2 λ i χ 2 . {\displaystyle \sum _{i=1}^{N}{\frac {(X_{i}-\lambda _{i})^{2}}{\lambda _{i}}}\sim \chi ^{2}.}
  • Funkcją generującą momenty rozkładu Poissona z oczekiwaną wartość λ {\displaystyle \lambda } jest
E ( e t X ) = k = 0 e t k f ( k ; λ ) = k = 0 e t k λ k e λ k ! = e λ ( e t 1 ) . {\displaystyle \mathrm {E} \left(e^{tX}\right)=\sum _{k=0}^{\infty }e^{tk}f(k;\lambda )=\sum _{k=0}^{\infty }e^{tk}{\frac {\lambda ^{k}e^{-\lambda }}{k!}}=e^{\lambda (e^{t}-1)}.}
  • Wszystkie kumulanty rozkładu Poissona są równe wartości oczekiwanej λ . {\displaystyle \lambda .} N {\displaystyle N} -ty moment silni rozkładu Poissona jest równy λ n . {\displaystyle \lambda n.}
  • Rozkład Poissona jest nieskończenie podzielnym rozkładem prawdopodobieństwa.
  • Bezpośrednia dywergencja Kullbacka-Leiblera pomiędzy POI ( λ ) {\displaystyle (\lambda )} i POI ( λ 0 ) {\displaystyle (\lambda _{0})} jest dana przez
D K L ( λ λ 0 ) = λ 0 λ + λ log λ λ 0 . {\displaystyle D_{\mathrm {KL} }(\lambda \|\lambda _{0})=\lambda _{0}-\lambda +\lambda \log {\frac {\lambda }{\lambda _{0}}}.}
  • Wartość oczekiwana policzona z definicji:
E ( X ) = x = 0 x P ( X = x ) = x = 0 x e λ λ x x ! = e λ x = 0 x λ x x ! = e λ x = 1 λ x ( x 1 ) ! = e λ λ x = 1 λ x 1 ( x 1 ) ! = e λ λ x = 0 λ x x ! = e λ λ e λ = λ e λ λ = λ {\displaystyle E(X)=\sum _{x=0}^{\infty }xP(X=x)=\sum _{x=0}^{\infty }x{\frac {e^{-\lambda }\lambda ^{x}}{x!}}=e^{-\lambda }\sum _{x=0}^{\infty }{\frac {x\lambda ^{x}}{x!}}=e^{-\lambda }\sum _{x=1}^{\infty }{\frac {\lambda ^{x}}{(x-1)!}}=e^{-\lambda }\lambda \sum _{x=1}^{\infty }{\frac {\lambda ^{x-1}}{(x-1)!}}=e^{-\lambda }\lambda \sum _{x=0}^{\infty }{\frac {\lambda ^{x}}{x!}}=e^{-\lambda }\lambda e^{\lambda }=\lambda e^{\lambda -\lambda }=\lambda }

Ocena rozkładu Poissona

Chociaż rozkład Poissona jest ograniczony przez 0 , {\displaystyle 0,} licznik i mianownik f ( k , λ ) {\displaystyle f(k,\lambda )} może osiągnąć skrajne wartości dla dużych wartości k {\displaystyle k} lub λ . {\displaystyle \lambda .}

Jeżeli rozkład Poissona jest szacowany na komputerze z ograniczoną dokładnością, najpierw wyliczając jego licznik i mianownik, a następnie dzieląc je, to może wystąpić znaczna utrata precyzji.

Na przykład dla typowej podwójnej precyzji zdarzy się całkowita utrata dokładności jeśli f ( 150 , 150 ) {\displaystyle f(150,150)} jest obliczana w ten sposób.

Pewniejszą metodą liczenia jest:

f ( k , λ ) = exp ln f ( k , λ ) = exp ln λ k exp ( λ ) k ! = exp ( k ln λ λ i = 1 k ln i ) . {\displaystyle {\begin{aligned}f(k,\lambda )&=\exp {\ln {f(k,\lambda )}}\\&=\exp {\ln {\frac {\lambda ^{k}\exp {(-\lambda )}}{k!}}}\\&=\exp {(k\ln {\lambda }-\lambda -\sum _{i=1}^{k}\ln {i})}.\end{aligned}}}

Generowanie zmiennych losowych o rozkładzie Poissona

Prosty sposób na generowanie losowych liczb o rozkładzie Poissona, jest podany przez Knutha, zobacz odniesienia poniżej.

algorytm poisson random number (Knuth):
 init:
  Let L ← e^-λ, k ← 0 i p ← 1.
 do:
  k ← k + 1.
  Wygeneruj losową liczbę u z przedziału [0,1] i przypisz p ← p × u.
 while p > L.
 return k – 1.

Podczas gdy jest prosty, złożoność jest liniowa względem λ . {\displaystyle \lambda .} Istnieje wiele innych algorytmów na przezwyciężenie tego. Niektóre z nich są podane w Ahrens & Dieter, patrz odniesienia poniżej. Ponadto dla dużych wartości λ , {\displaystyle \lambda ,} mogą być problemy ze stabilnością numeryczną ze względu na człon exp ( λ ) . {\displaystyle \exp(-\lambda ).} Jednym z rozwiązań dla dużych wartości λ {\displaystyle \lambda } jest Pobieranie z odrzuceniem, innym jest wykorzystanie przybliżenia Poissona przez Gaussa.

Metoda odwrotnej transformacji jest prosta i skuteczna dla małych wartości λ {\displaystyle \lambda } i wymaga tylko jednej jednolitej losowej liczby u {\displaystyle u} na próbkę. Skumulowane prawdopodobieństwa badane są z kolei, aż jedno przekracza u . {\displaystyle u.}

Estymacja parametrów

Największa wiarygodność

Dana jest próbka n {\displaystyle n} mierzonych wartości k i {\displaystyle k_{i}} i chcemy oszacować wartość parametru λ {\displaystyle \lambda } populacji Poissona z której próbka została zaczerpnięta. Aby obliczyć wartość największej wiarygodności, tworzymy funkcję log-prawdopodobieństwo

L ( λ ) = ln i = 1 n f ( k i λ ) = i = 1 n ln e λ λ k i k i ! = n λ + ( i = 1 n k i ) ln λ i = 1 n ln ( k i ! ) . {\displaystyle {\begin{aligned}L(\lambda )&=\ln \prod _{i=1}^{n}f(k_{i}\mid \lambda )\\&=\sum _{i=1}^{n}\ln {\frac {e^{-\lambda }\lambda ^{k_{i}}}{k_{i}!}}\\&=-n\lambda +\left(\sum _{i=1}^{n}k_{i}\right)\ln \lambda -\sum _{i=1}^{n}\ln(k_{i}!).\end{aligned}}}

Weź pochodną L {\displaystyle L} względem λ {\displaystyle \lambda } i przyrównaj ją do zera:

d d λ L ( λ ) = 0 n + ( i = 1 n k i ) 1 λ = 0. {\displaystyle {\frac {\mathrm {d} }{\mathrm {d} \lambda }}L(\lambda )=0\iff -n+\left(\sum _{i=1}^{n}k_{i}\right){\frac {1}{\lambda }}=0.}

Rozwiązanie dla λ {\displaystyle \lambda } daje punkt stacjonarny, który, jeśli druga pochodna jest ujemna, jest oszacowaniem maksymalnego prawdopodobieństwa λ : {\displaystyle \lambda {:}}

λ ^ M L E = 1 n i = 1 n k i . {\displaystyle {\widehat {\lambda }}_{\mathrm {MLE} }={\frac {1}{n}}\sum _{i=1}^{n}k_{i}.}

Sprawdzając drugą pochodną, okazuje się, że jest ujemna dla wszystkich λ {\displaystyle \lambda } i k i {\displaystyle k_{i}} większych od zera, dlatego ten stacjonarny punkt jest rzeczywiście maksimum początkowej funkcji prawdopodobieństwa:

2 L λ 2 = λ 2 i = 1 n k i . {\displaystyle {\frac {\partial ^{2}L}{\partial \lambda ^{2}}}=-\lambda ^{-2}\sum _{i=1}^{n}k_{i}.}

Ponieważ każda obserwacja ma oczekiwane λ {\displaystyle \lambda } więc tak samo średnią tej próbki. Dlatego jest nieobciążonym estymatorem λ . {\displaystyle \lambda .} Jest to również efektywny estymator, tj. jego oszacowanie wariancji osiąga dolne ograniczenie nierówności Rao-Craméra. Stąd MVUE – estymator nieobciążony o minimalnej wariancji. Ponadto można udowodnić, że średnia próbki jest kompletna i wystarczająca statystycznie dla λ . {\displaystyle \lambda .}

Statystyka bayesowska

W statystyce bayesowskiej, sprzężony rozkład a priori dla parametru skali λ {\displaystyle \lambda } rozkładu Poissona jest rozkładem gamma. Niech

λ G a m m a ( α , β ) {\displaystyle \lambda \sim \mathrm {Gamma} (\alpha ,\beta )}

oznacza, że λ {\displaystyle \lambda } ma rozkład zgodnie z gęstością Gamma g {\displaystyle g} parametryzowaną ze względu na parametr kształtu α {\displaystyle \alpha } i odwrotny parametrem skali: β {\displaystyle \beta }

g ( λ α , β ) = β α Γ ( α ) λ α 1 e β λ  for  λ > 0. {\displaystyle g(\lambda \mid \alpha ,\beta )={\frac {\beta ^{\alpha }}{\Gamma (\alpha )}}\;\lambda ^{\alpha -1}\;e^{-\beta \,\lambda }\qquad {\text{ for }}\lambda >0.}

Następnie biorąc tę samą próbkę n {\displaystyle n} zmierzonych wartości k i {\displaystyle k_{i}} jak poprzednio, i a priori Gamma ( α , β ) , {\displaystyle (\alpha ,\beta ),} rozkład a posteriori jest

λ G a m m a ( α + i = 1 n k i , β + n ) . {\displaystyle \lambda \sim \mathrm {Gamma} (\alpha +\sum _{i=1}^{n}k_{i},\beta +n).}

Średnia a posteriori E [ λ ] {\displaystyle E[\lambda ]} zbliża się do oszacowania maksymalnego prawdopodobieństwa λ ^ M L E {\displaystyle {\widehat {\lambda }}_{\mathrm {MLE} }} w granicy, jako α 0 ,   β 0. {\displaystyle \alpha \to 0,\ \beta \to 0.}

Przewidujący rozkład a posteriori dodatkowych danych jest rozkładem Gamma-Poissona (tj. ujemnym dwumianowym).

Przedział ufności

Prosta i szybka metoda obliczania przybliżonego przedziału ufności dla oszacowania λ {\displaystyle \lambda } jest zaproponowana w Guerriero et al. (2009). Metoda ta zapewnia dobre przybliżenie granic przedziału ufności dla próbek zawierających co najmniej 15–20 elementów. Oznaczając przez N {\displaystyle N} liczbę próbkowanych punktów lub zdarzeń, a przez L {\displaystyle L} długość linii próbek (lub przedział czasowy), górna i dolna granica 95% przedziału ufności dane są przez:

λ l o w = N / L ( 1 1 , 96 / N 1 ) , {\displaystyle \lambda _{low}=N/L(1-1{,}96/{\sqrt {N-1}}),}
λ u p p = N / L ( 1 + 1 , 96 / N 1 ) . {\displaystyle \lambda _{upp}=N/L(1+1{,}96/{\sqrt {N-1}}).}

Prawo małych liczb

Słowo prawo jest czasami używane jako synonim rozkładu prawdopodobieństwa i konwergencja tu oznacza konwergencję w rozkładzie. W związku z tym rozkład Poissona jest czasami nazywany prawem małych liczb, ponieważ jest to rozkład prawdopodobieństwa ilości wystąpień zdarzenia, które zdarza się rzadko, ale ma bardzo wiele możliwości, aby się zdarzyć. Prawo małych liczb to książka Władysława Bortkiewicza o rozkładzie Poissona opublikowana w 1898 roku. Niektórzy historycy matematyki twierdzili, że rozkład Poissona powinien być nazywany rozkładem Bortkiewicza[6].

Zobacz też

Przypisy

  1. Jan Gullberg: Mathematics from the birth of numbers. New York: W.W. Norton, 1997, s. 963–965. ISBN 0-393-04002-X.
  2. NIST/SEMATECH, '6.3.3.1. Counts Control Charts', e-Handbook of Statistical Methods, accessed 25 October 2006.
  3. Peter McCullagh: Generalized Linear Models. Nelder, John. London: Chapman and Hall, 1989. ISBN 0-412-31760-5. page 196 gives the approximation and the subsequent terms.
  4. N.L. Johnson, S. Kotz, A.W. Kemp, Univariate Discrete distributions (2nd edition), Wiley, 1993, ISBN 0-471-54897-9, s. 163.
  5. Box, Hunter and Hunter: Statistics for experimenters. Wiley, s. 57.
  6. I.J. Good. Some statistical applications of Poisson’s work. „Statistical Science”. 1 (2), s. 157–180, 1986. DOI: 10.1214/ss/1177013690. 

Bibliografia

  • Rozkład po raz pierwszy tak nazwany w pracy:
Herbert Edward Soper. Tables of Poisson’s exponential binomial limit. „Biometrika”. 10, s. 25–35, 1914. 

Referencje

  • J. Wawrzynek: Metody opisu i wnioskowania statystycznego. Wrocław: Wydawnictwo Akademii Ekonomicznej im. Oskara Langego we Wrocławiu, 2007, s. 56–57. ISBN 978-83-7011-859-4.
  • V. Guerriero, S. Vitale, S. Ciarcia, S. Mazzoli. Improved statistical multi-scale analysis of fractures in carbonate reservoir analogues. „Tectonophysics”, 2011. Elsevier. DOI: 10.1016/j.tecto.2011.01.003. 
  • V. Guerriero, A. Iannace, S. Mazzoli, M. Parente, S. Vitale, M. Giorgioni. Quantifying uncertainties in multi-scale studies of fractured reservoir analogues: Implemented statistical analysis of scan line data from carbonate rocks. „Journal of Structural Geology”, 2009. Elsevier. DOI: 10.1016/j.jsg.2009.04.016. 
  • Donald E. Knuth: Seminumerical Algorithms. Addison Wesley, 1969, seria: The Art of Computer Programming, Volume 2.
  • Joachim H. Ahrens, Ulrich Dieter. Computer Methods for Sampling from Gamma, Beta, Poisson and Binomial Distributions. „Computing”. 12 (3), s. 223–246, 1974. DOI: 10.1007/BF02293108. 
  • Joachim H. Ahrens, Ulrich Dieter. Computer Generation of Poisson Deviates. „ACM Transactions on Mathematical Software”. 8 (2), s. 163–179, 1982. DOI: 10.1145/355993.355997. 
  • Ronald J. Evans, J. Boersma, N.M. Blachman, A.A. Jagers. The Entropy of a Poisson Distribution: Problem 87-6. „SIAM Review”. 30 (2), s. 314–317, 1988. DOI: 10.1137/1030059. 

Linki zewnętrzne

  • POISSON () w najbardziej popularnych arkuszach kalkulacyjnych
  • Kalkulator online – Rozkład Poissona
  • LCCN: sh85103956
  • GND: 4253010-6
  • NDL: 00569122
  • J9U: 987007558217205171
  • LNB: 000327249
  • Britannica: topic/Poisson-distribution
  • БРЭ: 3172464
  • SNL: poissonfordeling
  • DSDE: Poisson-fordeling