Kolmogorov–Szmirnov-próba

Innen: testwiki
Ugrás a navigációhoz Ugrás a kereséshez

A Kolmogorov–Szmirnov próba egy statisztikai teszt, ami a nem-paraméteres próbák közé tartozik. A teszt két minta eloszlásának összehasonlítására alkalmas. Egymintás t-próbát vizsgálunk vele a tapasztalati és az elméleti eloszlásfüggvény eltérésének maximuma alapján. Alkalmas arra, hogy két valószínűségi változó eloszlását összehasonlítsuk, vagy ellenőrizzük, hogy egy valószínűségi változónak csakugyan az az eloszlása, amit feltételeztünk.

A próbát Andrej Nyikolajevics Kolmogorov dolgozta ki.[1]

Magyarázata

Legyen X a vizsgált statisztika, aminek eloszlása nem ismert, de feltételezzük, hogy megegyezik az F0 eloszlással. Nullhipotézisünk tehát:

H0:FX(x)=F0(x)

Az ellenhipotézis:

H1:FX(x)F0(x)

A próba a Fn tapasztalati eloszlást hasonlítja össze az F0 eloszlással a

dn=FnF0=supx|Fn(x)F0(x)|,

tesztstatisztika segítségével, ahol sup a szuprémumot jelöli. A Glivenko–Cantelli-tétel szerint a tapasztalati eloszlásfüggvény egyenletesen tart a valódi eloszlásfüggvényhez, vagyis H0 esetén F0-hoz. H1 esetén nagyobb értékek adódnak. A tesztstatisztika független az F0 eloszlástól. Ha a tesztstatisztika értéke nagyobb mint ami a táblázatban meg van adva, a H0 hipotézis valószínűleg nem teljesül, ezért elvetjük.

Egymintás próba

Legyen X a megfigyelt valószínűségi változó, és legyenek a megfigyeléseink xi (i = 1,...,n)! Ezekből a megfigyelésekből számíthatjuk az S(xi) relatív gyakoriságokat. Az így kapott tapasztalati eloszlást hasonlítjuk össze a feltételezett eloszlással, ami az egyes értékekre az F0(xi) értékeket adja. Ha X a feltételezett eloszlásból származik, akkor a két függvény értékeinek egymás közelében kell lenniük. Tehát kiszámítjuk a

doi=|S(xi)F0(xi)|

és a

dui=|S(xi1)F0(xi)|

abszolút különbséget minden i-re. Kiválasztjuk a dmax maximumot a két sorozat uniójából. Ha ez a dmax nagyobb, mint egy előre meghatározott dα, akkor a nullhipotézist az α szinten elvetjük.

A kritikus értékeket az n=40 mintadarabszámig tabellázzák.[2] Nagyobb mintákra a

dα=ln(2α)2n

képletet használják.

A képlet ezeket a dα értékeket adja a különböző konfidenciaintervallumokra:

α szignifikanciaszint dα
20% 1,07/√n
10% 1,22/√n
5% 1.3581/√n
2% 1,52/√n
1% 1,6276/√n

Kétmintás próba

Kétmintás esetben a próbában az elméleti eloszlásfüggvényt a másik minta tapasztalati eloszlása helyettesíti:

Dn,n=supx|F1,n(x)F2,n(x)|,

ahol F1,n az első és F2,n a második minta tapasztalati eloszlása. A nullhipotézist α szinten elvetjük, ha

nnn+nDn,n>Kα.

A kétmintás próba működik akkor is, ha a minták elméleti eloszlása ismeretlen. Ez a próba a két eloszlást hasonlítja össze, hogy ugyanabból az elméleti eloszlásból származnak-e. A kritikus értékei szintén táblázatból olvashatók ki[3] és a későbbi publikációk a Gumbel-eloszlással is foglalkoznak.[4] A próba nem alkalmas az előtte-utána vett minták összehasonlítására.

Tulajdonságai

A Kolmogorov–Szmirnov-próba a χ²-próbával szemben kis elemszámú minták vizsgálatára is alkalmas.[5]

Mint nem paraméteres próba nagyon stabil. Eredetileg folytonos eloszlásokra készült, de alkalmas diszkrét vagy rangskálázott értékek vizsgálatára is. Ekkor azonban ritkábban lehet elvetni a nullhipotézist, mint folytonos esetben.

Nagy előnye abban áll, hogy eloszlásfüggetlen, és nem csak normális eloszlásból származó statisztikák vizsgálatára alkalmas. A próbastatisztika minden folytonos eloszlásra ugyanazt az eloszlást követi, emiatt széles körben használható. Hátránya, hogy kicsi az ereje. A Lilliefors-próba a Kolmogorov–Szmirnov-próba egy erősebb változata csak normális eloszlásokra. Lehetséges alternatívái a Cramér–von Mises-teszt, ami egy és két mintás esetre is alkalmas, vagy az Anderson–Darling-próba csak az egymintás esetre.

Ha F(x) függ az Xi adatoktól, akkor az elméleti háttér által megadott módott generált kritikus értékek érvénytelenek. Néhány ilyen esetre készültek táblázatok, máskor azonban a Monte Carlo-módszert használják. Léteznek táblázatok normális, exponenciális,[3] és Gumbel-eloszláshoz.[4]

A Kolmogorov–Szmirnov-próba megfordítható F(x) konfidenciahatárainak megállapításához. Ha Dα a próbastatisztika kritikus értéke úgy, hogy P(Dn > Dα) = α, akkor az F0(x) körüli ±Dα szélességű sáv 1 − α valószínűséggel tartalmazza a teljes F(x)-et.

Példa

A példa elméleti és tapasztalati eloszlásának összehasonlítása: balra a hisztogram a normális eloszlás sűrűségfüggvényével, jobbra az elméleti és a tapasztalati eloszlásfüggvény

Egy értékes parfümöket gyártó vállalatnál a minőségbiztosítás keretében ellenőrizték az egy flakonba jutóparfüm mennyiségét. A minta elemszáma n = 8, és a vizsgált mennyiség az egy flakonba töltött parfüm mennyisége milliliterben, amit a továbbiakban x jelöl. A várt eloszlás az μ=11 és σ2=σ=1 paraméterű normális eloszlás. Azt vizsgáljuk, hogy az eloszlás megfelel-e ennek. Tehát a nullhipotézis:

H0:F(x)=F0(x)=Φ(x|11;1)

ahol Φ a normális eloszlás jele. A vizsgálatot az α = 0,05 szignifikanciaszinten végezték.

A számított értékek:

i xi S(xi) Fo(xi) S(xi-1)-Fo(xi) S(xi)-Fo(xi)
1 9,41 0,125 0,056 -0,056 0,069
2 9,92 0,250 0,140 -0,015 0,110
3 11,55 0,375 0,709 -0,459 -0,334
4 11,60 0,500 0,726 -0,351 -0,226
5 11,73 0,625 0,767 -0,267 -0,142
6 12,00 0,750 0,841 -0,216 -0,091
7 12,06 0,875 0,855 -0,105 0,020
8 13,02 1,000 0,978 -0,103 0,022

ahol xi az i-edik megfigyelés, S(xi) a számlálófüggvény értéke, és F0(xi) a normális eloszlásfüggvény értéke az xi helyen. A többi oszlop a differenciákat mutatja. Az n=8 mintamérethez és az α=0,05 szignifikanciaszinthez a 0,457 kritikus érték tartozik,[2] tehát a Kolmogorov–Szmirnov-próba szerint a nullhipotézist elvetjük. Mivel azonban a 0,459 érték ehhez nagyon közeli, ezért nem olyan valószínűtlen, hogy a nullhipotézis nem igaz, de az alternatív hipotézis valószínűsége nagyobb. Ezért valószínűbb, hogy az eloszlás nem μ=11 és σ2=σ=1 paraméterű normális eloszlás, hanem vagy mások a paraméterei, vagy nem normális az eloszlás.

Elméleti háttere

A Kolmogorov-eloszlás a

K=supt[0,1]|B(t)|

véletlen valószínűségi változó eloszlása, ahol B(t) a szimmetrikus bolyongás. K kumulatív eloszlása[6]

Pr(Kx)=12k=1(1)k1e2k2x2=2πxk=1e(2k1)2π2/(8x2).

A Kolmogorov–Szmirnov-próba statisztikát és a hozzá tartozó aszimptotikus eloszlást Andrej Kolmogorov publikálta.[1] Véges minták tesztstatisztikájának eloszlására rekurzív alakban is elérhető. A valószínűségek konkrét értékeit először Nyikolaj Vasziljevics Szmirnov publikálta, táblázatos formában.[7]

A nullhipotézis teljesülése esetén

nDnnsupt|B(F(t))|

ahol F(x) a nullhipotézisben megadott elméleti eloszlásfüggvény. Ha F folytonos, akkor nDn a Kolmogorov-eloszláshoz tart, függetlenül F-től, ahogy a Kolmogorov-tétel állítja.

Az illeszkedés jóságát a kritikus érték adja meg. Az α szinten a nullhipotézist elvetjük, ha

nDn>Kα,

ahol Kα innen számítható:

Pr(KKα)=1α.

A teszt aszimptotikus ereje 1.

Magasabb dimenzióban

Magasabb dimenziókra a próbát módosítani kell, mivel a több dimenziós eloszlásfüggvények közötti különbség nem egyezik meg a komplementer eloszlásfüggvények különbségével. Így a maximális különbség függ attól, hogy például két változó esetén az Pr(x<Xy<Y) vagy az Pr(X<xY>y) vagy a fennmaradó két lehetőség egyikét használják-e. Egyedül azt követelik meg, hogy az eredmény független legyen ettől a választástól.

Egy másik megközelítésben a minták összes párosítását számításba veszik, és tekintik az így előállt Kolmogorov–Szmirnov-statisztikákat. d dimenzióban 2d−1 ilyen független rendezés van. Az egyik változatot Peacock,[8] egy másikat Fasano & Franceschini[9] vezetett be.[10] A kritikus értéket szimulációval állítják elő, az együttes eloszlás összefüggőségeit figyelembe véve.

Alkalmazásai

A próbát többek között használják:

  • Véletlengenerátorok ellenőrzésére, hogy az általuk generált számok a megfelelő eloszlásúak-e, például egyenletes eloszlást követnek-e.
  • Egyes statisztikai eljárások csak közelítőleg normális eloszlású valószínűségi változókra használhatók, ezért fontos azt ellenőrizni, hogy az adott minta egy ilyen eloszlásból származik-e.

Jegyzetek

Sablon:Jegyzetek

Források