Zipf-eloszlás

Innen: testwiki
A lap korábbi változatát látod, amilyen imported>B.Zsoltbot 2025. január 31., 12:32-kor történt szerkesztése után volt. (Jegyzetek: források -> jegyzetek, wp clean AWB)
(eltér) ← Régebbi változat | Aktuális változat (eltér) | Újabb változat→ (eltér)
Ugrás a navigációhoz Ugrás a kereséshez
Valószínűségi tömeg függvény
Kumulatív eloszlás függvény

A Zipf-eloszlás (Zipf-törvény) egy tapasztalati törvény a matematikai statisztika eszközeivel kifejezve.

Zipf-eloszlást mutat számos fizikai és szociáltudományi jelenség, melyek a diszkrét hatványtörvény típusú valószínűségeloszlások családjába tartoznak.

Az eloszlást George Kingsley Zipf (1902–1950) amerikai nyelvészről nevezték el.

Zipf említette először (1935) megfigyeléseit, később hasonló megállapításokra jutott Jean-Baptiste Estoup (1868-1950) francia gyorsíró,[1] és Felix Auerbach német fizikus is.[2]

Motiváció

A Zipf-törvény azt állítja, hogy egy természetes nyelv egyes részeiben egy szó előfordulási gyakorisága fordítottan arányos a gyakorisági (előfordulási) táblában levő rangjával. Így, a leggyakoribb szó közel kétszer gyakoribb, mint a második leggyakoribb szó, és háromszor gyakoribb, mint a harmadik helyen lévő, stb.

Példának hozza fel az úgynevezett Brown-gyűjteményt (a Brown Universityn kb. 500 angol szöveget vizsgáltak meg a nyelvészek), ahol a „the” a leggyakrabban előforduló szó, és közel 7%-ban fordul elő az összes szót tekintve. A Zipf-törvényt (Zipf-eloszlás) igazolandó, a második leggyakoribb szó az „and”, melynek előfordulási gyakorisága 3,5%.

Hasonló törvényszerűség (eloszlás) nem csupán a szövegtestekben figyelhető meg, hanem más területeken is, mint például: különböző országokban a városok lakosságának eloszlásánál, vállalatok méreteinél, jövedelemeloszlásnál, stb.

A városok-lakosság viszonyra vonatkozó eloszlást először Felix Auerbach írta le 1913-ban.[2]

A városokra vonatkozó teljes eloszlás log-normális eloszláshoz közelebb áll, és a Gibrat-törvényt követi.[3]

Mindkét törvény konzisztens, mert a log-normális eloszlás farokrészét tipikusan nem kezeli a Zipf-eloszlás (Pareto-eloszlás).

Elméleti áttekintés

A Zipf-eloszlást legjobban egy log-log koordináta-rendszerben ábrázolható, ahol a koordináták a sorban lévő tétel, és az előfordulási gyakoriság.

Legyen:

  • N az elemek száma;
  • k a sorrendi ’rang’;
  • s az exponens értéke, mely jellemzi az eloszlást

Ekkor a Zipf-eloszlás megjósolja az N elemű populációból a k-adik elem gyakoriságát f(k;s,N):

f(k;s,N)=1/ksn=1N(1/ns).

A Zipf-törvény érvényes, ha minden elem előfordulása független, és azonos valószínűségi változóik vannak a hatványtörvény eloszlás szerint: p(f)=αf11/s.[4]

A példa az angol nyelvben: N a szavak száma, és ha a Zipf-törvény klasszikus változatát használjuk, akkor s=1.

Az f(ks,N)

f(k;s,N)=1ksHN,s

ahol HN,s a N'-edik általánosított harmonikus szám, és k-adik a legtöbbet szereplő szó.

A Zipf-törvény legegyszerűbb esete az 1f függvény.

Egy adott Zipf eloszlású gyakoriság esetén, a legtöbbet előforduló szótól a legkevesebbet előfordulóig sorba rakva kapjuk az eredményt: a második tétel ½ arányban fog előfordulni, mint az első, a harmadik 1/3 arányban fordul elő az elsőhöz képest.

Azaz az n-edik legtöbbet előforduló szó, 1n-ik gyakorisággal fordul elő az elsőhöz képest. Azonban ez nem teljesen érvényes, mert a számok egészként fordulnak elő, nem lehet például egy szónak 2,5–szeres előfordulása. Ennek ellenére, széles tartományban, jó közelítéssel, sok természeti jelenség a Zipf-eloszlás szerint viselkedik.

Matematikailag, egy Zipf-eloszlásnál az összes relatív gyakoriság összege egyenlő egy harmonikus sorral, és

n=11n=.

A nyelveknél, a szavak előfordulási gyakorisága, egy igen széles farok tipusú eloszlást mutat, ezért a Zipf-eloszlással közel s=1-gyel modellezhető.

Amíg az s exponens nem haladja túl az 1 értéket, lehetséges, hogy ez a törvény érvényes végtelen sok szóra, mivel

ζ(s)=n=11ns<.

ahol ζ a Riemann-féle zéta-függvény

Statisztikai magyarázat

Nem ismert, miért érvényes a Zipf-eloszlás a legtöbb nyelvre.[5]

Ezt azonban részben megmagyarázhatja a véltelenszerűen generált szövegek statisztikai analízise. Wentian Li kimutatta, hogy egy dokumentum, melyben minden karakter véletlenszerűen van kiválasztva, a “szavak” a Zipf-eloszlást követik (ez közel lineáris görbét ad egy log-log koordináta-rendszerben).[6]

Vitold Belevitch (1921 – 1999), belga matematikus közölt egy matematikai levezetést (On the Statistical Laws of Linguistic Distribution). A levezetés a Taylor-sor alkalmazásával a Zipf-eloszlást eredményezte, további sorbafejtés során a Mandelbrot-törvény adódott.[7][8]

Zipf azt feltételezte, hogy egy adott nyelven sem a beszélő, sem a hallgató nem kíván keményen odafigyelni ahhoz, hogy megértse a beszédet, és ez a folyamat eredményezheti közelitőleg a megfigyelt Zipf-törvényt.[9][10]

Internet és a Zipf-eloszlás

Szavak eloszlása a Wikipedián

Az ábrán az angol nyelvű Wikipediában előforduló szavak előfordulási gyakorisága látható (2006. november 27.). Az ábrázolás log-log típusú, ahol „x” az adott szó „rangja” a gyakorisági táblában, „y” a szó teljes előfordulásának számértéke. Amint várható volt, a leggyakrabban a „the”, „of” és „and” szavak fordulnak elő.

A Zipf–eloszlásnak a görbék felső része felel meg, közel a zöld vonalat (1/x) követve (lásd valószínűségi tömeg függvény log-log ábrázolása).

Kapcsolat más eloszlásokkal

A Zipf-eloszlást megkaphatjuk a Pareto-eloszlásból a változók cseréjével. A Zipf-eloszlást szokták diszkrét Pareto-eloszlásnak is hívni,[11] mert hasonló a folytonos Pareto-eloszlással, ugyanúgy, mint ahogy a diszkrét egyenletes eloszlás hasonló a folytonos egyenletes eloszlással. A Zipf-eloszlást alkalmazzák szolgáltatás orientált környezetekben is.

Kapcsolódó szócikkek

Irodalom

Fordítás

Sablon:Fordítás

Jegyzetek

Sablon:Jegyzetek

Sablon:Portál

  1. Christopher D. Manning, Hinrich Schütze Foundations of Statistical Natural Language Processing, MIT Press (1999), Sablon:ISBN, p. 24
  2. 2,0 2,1 Auerbach F. (1913) Das Gesetz der Bevölkerungskonzentration. Petermann’s Geographische Mitteilungen 59, 74–76
  3. Eeckhout J. (2004), Gibrat's law for (All) Cities. American Economic Review 94(5), 1429-1451.
  4. Adamic, Lada A."Zipf, Power-laws, and Pareto - a ranking tutorial" Sablon:Wayback
  5. Léon Brillouin, La science et la théorie de l'information, 1959, réédité en 1988, traduction anglaise rééditée en 2004
  6. Sablon:Cite journal
  7. Peter G. Neumann "Statistical metalinguistics and Zipf/Pareto/Mandelbrot" Sablon:Wayback, SRI International Computer Science Laboratory, accessed and 29 May 2011.
  8. Sablon:Cite journal
  9. Sablon:Cite book
  10. Sablon:Cite journal
  11. Sablon:Cite book, p. 466.