Zipf-eloszlás


A Zipf-eloszlás (Zipf-törvény) egy tapasztalati törvény a matematikai statisztika eszközeivel kifejezve.
Zipf-eloszlást mutat számos fizikai és szociáltudományi jelenség, melyek a diszkrét hatványtörvény típusú valószínűségeloszlások családjába tartoznak.
Az eloszlást George Kingsley Zipf (1902–1950) amerikai nyelvészről nevezték el.
Zipf említette először (1935) megfigyeléseit, később hasonló megállapításokra jutott Jean-Baptiste Estoup (1868-1950) francia gyorsíró,[1] és Felix Auerbach német fizikus is.[2]
Motiváció
A Zipf-törvény azt állítja, hogy egy természetes nyelv egyes részeiben egy szó előfordulási gyakorisága fordítottan arányos a gyakorisági (előfordulási) táblában levő rangjával. Így, a leggyakoribb szó közel kétszer gyakoribb, mint a második leggyakoribb szó, és háromszor gyakoribb, mint a harmadik helyen lévő, stb.
Példának hozza fel az úgynevezett Brown-gyűjteményt (a Brown Universityn kb. 500 angol szöveget vizsgáltak meg a nyelvészek), ahol a „the” a leggyakrabban előforduló szó, és közel 7%-ban fordul elő az összes szót tekintve. A Zipf-törvényt (Zipf-eloszlás) igazolandó, a második leggyakoribb szó az „and”, melynek előfordulási gyakorisága 3,5%.
Hasonló törvényszerűség (eloszlás) nem csupán a szövegtestekben figyelhető meg, hanem más területeken is, mint például: különböző országokban a városok lakosságának eloszlásánál, vállalatok méreteinél, jövedelemeloszlásnál, stb.
A városok-lakosság viszonyra vonatkozó eloszlást először Felix Auerbach írta le 1913-ban.[2]
A városokra vonatkozó teljes eloszlás log-normális eloszláshoz közelebb áll, és a Gibrat-törvényt követi.[3]
Mindkét törvény konzisztens, mert a log-normális eloszlás farokrészét tipikusan nem kezeli a Zipf-eloszlás (Pareto-eloszlás).
Elméleti áttekintés
A Zipf-eloszlást legjobban egy log-log koordináta-rendszerben ábrázolható, ahol a koordináták a sorban lévő tétel, és az előfordulási gyakoriság.
Legyen:
- N az elemek száma;
- k a sorrendi ’rang’;
- s az exponens értéke, mely jellemzi az eloszlást
Ekkor a Zipf-eloszlás megjósolja az N elemű populációból a k-adik elem gyakoriságát f(k;s,N):
A Zipf-törvény érvényes, ha minden elem előfordulása független, és azonos valószínűségi változóik vannak a hatványtörvény eloszlás szerint: [4]
A példa az angol nyelvben: N a szavak száma, és ha a Zipf-törvény klasszikus változatát használjuk, akkor s=1.
Az f(k; s,N)
ahol HN,s a N'-edik általánosított harmonikus szám, és k-adik a legtöbbet szereplő szó.
A Zipf-törvény legegyszerűbb esete az 1⁄f függvény.
Egy adott Zipf eloszlású gyakoriság esetén, a legtöbbet előforduló szótól a legkevesebbet előfordulóig sorba rakva kapjuk az eredményt: a második tétel ½ arányban fog előfordulni, mint az első, a harmadik 1/3 arányban fordul elő az elsőhöz képest.
Azaz az n-edik legtöbbet előforduló szó, 1⁄n-ik gyakorisággal fordul elő az elsőhöz képest. Azonban ez nem teljesen érvényes, mert a számok egészként fordulnak elő, nem lehet például egy szónak 2,5–szeres előfordulása. Ennek ellenére, széles tartományban, jó közelítéssel, sok természeti jelenség a Zipf-eloszlás szerint viselkedik.
Matematikailag, egy Zipf-eloszlásnál az összes relatív gyakoriság összege egyenlő egy harmonikus sorral, és
A nyelveknél, a szavak előfordulási gyakorisága, egy igen széles farok tipusú eloszlást mutat, ezért a Zipf-eloszlással közel s=1-gyel modellezhető.
Amíg az s exponens nem haladja túl az 1 értéket, lehetséges, hogy ez a törvény érvényes végtelen sok szóra, mivel
ahol ζ a Riemann-féle zéta-függvény
Statisztikai magyarázat
Nem ismert, miért érvényes a Zipf-eloszlás a legtöbb nyelvre.[5]
Ezt azonban részben megmagyarázhatja a véltelenszerűen generált szövegek statisztikai analízise. Wentian Li kimutatta, hogy egy dokumentum, melyben minden karakter véletlenszerűen van kiválasztva, a “szavak” a Zipf-eloszlást követik (ez közel lineáris görbét ad egy log-log koordináta-rendszerben).[6]
Vitold Belevitch (1921 – 1999), belga matematikus közölt egy matematikai levezetést (On the Statistical Laws of Linguistic Distribution). A levezetés a Taylor-sor alkalmazásával a Zipf-eloszlást eredményezte, további sorbafejtés során a Mandelbrot-törvény adódott.[7][8]
Zipf azt feltételezte, hogy egy adott nyelven sem a beszélő, sem a hallgató nem kíván keményen odafigyelni ahhoz, hogy megértse a beszédet, és ez a folyamat eredményezheti közelitőleg a megfigyelt Zipf-törvényt.[9][10]
Internet és a Zipf-eloszlás

Az ábrán az angol nyelvű Wikipediában előforduló szavak előfordulási gyakorisága látható (2006. november 27.). Az ábrázolás log-log típusú, ahol „x” az adott szó „rangja” a gyakorisági táblában, „y” a szó teljes előfordulásának számértéke. Amint várható volt, a leggyakrabban a „the”, „of” és „and” szavak fordulnak elő.
A Zipf–eloszlásnak a görbék felső része felel meg, közel a zöld vonalat (1/x) követve (lásd valószínűségi tömeg függvény log-log ábrázolása).
Kapcsolat más eloszlásokkal
A Zipf-eloszlást megkaphatjuk a Pareto-eloszlásból a változók cseréjével. A Zipf-eloszlást szokták diszkrét Pareto-eloszlásnak is hívni,[11] mert hasonló a folytonos Pareto-eloszlással, ugyanúgy, mint ahogy a diszkrét egyenletes eloszlás hasonló a folytonos egyenletes eloszlással. A Zipf-eloszlást alkalmazzák szolgáltatás orientált környezetekben is.
Kapcsolódó szócikkek
- Sűrűségfüggvény
- Skálaparaméter
- Alakparaméter
- Hatványtörvény
- Nyelvészet
- Eloszlásfüggvény
- Valószínűségszámítás
- Statisztika
- Matematikai statisztika
- Diszkrét egyenletes eloszlás
- Folytonos egyenletes eloszlás
- Egyenletes eloszlás
- Pareto-eloszlás
Irodalom
Fordítás
Jegyzetek
- ↑ Christopher D. Manning, Hinrich Schütze Foundations of Statistical Natural Language Processing, MIT Press (1999), Sablon:ISBN, p. 24
- ↑ 2,0 2,1 Auerbach F. (1913) Das Gesetz der Bevölkerungskonzentration. Petermann’s Geographische Mitteilungen 59, 74–76
- ↑ Eeckhout J. (2004), Gibrat's law for (All) Cities. American Economic Review 94(5), 1429-1451.
- ↑ Adamic, Lada A."Zipf, Power-laws, and Pareto - a ranking tutorial" Sablon:Wayback
- ↑ Léon Brillouin, La science et la théorie de l'information, 1959, réédité en 1988, traduction anglaise rééditée en 2004
- ↑ Sablon:Cite journal
- ↑ Peter G. Neumann "Statistical metalinguistics and Zipf/Pareto/Mandelbrot" Sablon:Wayback, SRI International Computer Science Laboratory, accessed and 29 May 2011.
- ↑ Sablon:Cite journal
- ↑ Sablon:Cite book
- ↑ Sablon:Cite journal
- ↑ Sablon:Cite book, p. 466.