|
|
|
adatlap |
Balázs Melinda » Szekció: Fizika » Bemutatás éve: 2008 » Cím: Majomnyelv Szavak előfordulási gyakoriságának modellezése nyelvi statisztikák alapján » Intézmény: BBTE, FiK, fizika-informatika szak, III. év » Minősítés: dicséret és különdíj » Témavezető: dr. Járai-Szabó Ferenc adjunktus, BBTE, FiK, Elméleti és számítógépes fizika tanszék
» Kivonat: A szövegek statisztikai elemzése arra az érdekes következtetésre vezetett, hogy a társadalmi vagyoneloszlásra megállapított Pareto-törvény igaz a szavak előfordulási gyakoriságára is. Ez azt jelenti, hogy van néhány szó, ami nagyon gyakran fordul elő a szövegekben, míg a szavak többségét ritkábban használjuk. Matematikailag ezt úgy mondhatjuk, hogy a szavak előfordulási gyakorisága hatványfüggvénnyel írható le. Ennek okát vizsgáltuk véletlenszerűen generált szöveg, vagyis a majomnyelv segítségével. A szövegek létrehozásakor rendre figyelembe vettük az eredeti, angol nyelvű szöveg betű-, betűpár-, illetve szótageloszlását. Azt tapasztaltuk, hogy már az eredeti betűeloszlás alkalmazásakor visszakaptuk az angol szöveg szavainak hatványfüggvény-eloszlását. A szavak Top 10-es listájának elemzése viszont azt mutatta, hogy a szótageloszlás alapján generált szöveg közelítette meg legjobban az angol szöveget.
» Teljes dolgozat:
[PDF]
Vissza |
|
|
|