OCR Output

A SZÓELEMZÉS ELŐZMÉNYEINEK MÓDSZERTANI LEÍRÁSA

az elemzésben szereplő szavak számával, az oszlopok pedig az elemzett jegy¬
zőkönyveket reprezentálják. Fontos megjegyezni, hogy ebben a , szózsákmo¬
dellben" a szavak sorrendje a dokumentumban nem releváns, csupán azok
együttes előfordulását vizsgáljuk.

A dr; relevancia értéket a k-adik szó i-edik dokumentumban való elő¬
fordulásának gyakorisága (J4,) alapján, logaritmikus súlyfüggvény se¬
gitségével szamitottuk: w,; = 1 + logn,;, mely értéket normalizältuk:
Xj = Weil h-1 We» kezelve, minthogy a szavak dokumentumoktöl függet¬
len előfordulási gyakorisága eltérő.

Tekintettel arra, hogy a szavak különböző alakban fordulhatnak elő,
ezeket az előfordulásokat a modellben szótövezés segítségével közös, ka¬
nonikus alakban összesítve reprezentáltuk. A szótövezésre az Ocamorph
programcsomagot használtuk, a Hunspell helyesírási adatbázis felhaszná¬
lásával.

A szavak hasonlóságát előfordulásuk korrelációjával mértük, azaz a ha¬
sonlösägot is reprezentáló S kovariancia mátrix a k és I indexű szavak
hasonlóságát reprezentáló elemei a D dokumentum mátrix k-adik és L-edik
sorvektorainak korrelációja alapján kerültek számításra s, , — cov(y y).

A távolságtartó leképezéssel készített térképen tehát azok a szavak ke¬
rülnek közel egymáshoz, melyek a különböző jegyzőkönyvekben azonos
arányban fordulnak elő. A szavak távolságát a képlettel számoltuk, azaz
azok a szavak, melyek előfordulása teljes mértékében korrelál, távolsága
nulla, azaz a térképen várhatóan egy pontba fognak esni.

A többdimenziós skálázás segítségével a szavakat egy kétdimenziós
térben elhelyezkedő ponthalmazként lehet ábrázolni, úgy, hogy a szavakat
reprezentáló pontok között lévő távolság lehetőleg arányos legyen az elő¬
zőekben számított távolsággal, XX. E). (dr:— d). Az ilyen reprezentá¬
cióban a pontok közötti geometriai kapcsolatok (például a távolság) az
adatok közötti empirikus kapcsolatokat tükrôzik.??

Az egymáshoz leghasonlóbb szavakat összekötöttük, tovább segítve
a szavak kapcsolatrendszerének, hálózatának feltárását. Az ábrán a szavak
gyakoriságát körökkel jelöltük. A kör átmérője a gyakoriság logaritmusával
arányos (pl. kétszer akkora kör tízszer akkora gyakoriságot mutat, három¬
szor akkora százszor.

21 A módszertan informatikai kialakítása Abonyi János munkája. Az előzményekkel kapcsolatban
läsd Birher Nändor — Boros Istvan — Kocziha Mihály — Kolozsi Pál — Stummer Attila — Sztráray¬
Kézdy Éva: A kvantitatív szövegelemzés mint előrejelzési lehetőség, http://www.penzugyiszemle.
hu/tanulmanyok-eloadasok/a-kvantitativ-szovegelemzes-mint-elorejelzesi-lehetoseg (Letöltés:
2017. december 14.)