OCR
A SZÓELEMZÉS ELŐZMÉNYEINEK MÓDSZERTANI LEÍRÁSA az elemzésben szereplő szavak számával, az oszlopok pedig az elemzett jegyzőkönyveket reprezentálják. Fontos megjegyezni, hogy ebben a , szózsákmodellben" a szavak sorrendje a dokumentumban nem releváns, csupán azok együttes előfordulását vizsgáljuk. A dr; relevancia értéket a k-adik szó i-edik dokumentumban való előfordulásának gyakorisága (J4,) alapján, logaritmikus súlyfüggvény segitségével szamitottuk: w,; = 1 + logn,;, mely értéket normalizältuk: Xj = Weil h-1 We» kezelve, minthogy a szavak dokumentumoktöl független előfordulási gyakorisága eltérő. Tekintettel arra, hogy a szavak különböző alakban fordulhatnak elő, ezeket az előfordulásokat a modellben szótövezés segítségével közös, kanonikus alakban összesítve reprezentáltuk. A szótövezésre az Ocamorph programcsomagot használtuk, a Hunspell helyesírási adatbázis felhasználásával. A szavak hasonlóságát előfordulásuk korrelációjával mértük, azaz a hasonlösägot is reprezentáló S kovariancia mátrix a k és I indexű szavak hasonlóságát reprezentáló elemei a D dokumentum mátrix k-adik és L-edik sorvektorainak korrelációja alapján kerültek számításra s, , — cov(y y). A távolságtartó leképezéssel készített térképen tehát azok a szavak kerülnek közel egymáshoz, melyek a különböző jegyzőkönyvekben azonos arányban fordulnak elő. A szavak távolságát a képlettel számoltuk, azaz azok a szavak, melyek előfordulása teljes mértékében korrelál, távolsága nulla, azaz a térképen várhatóan egy pontba fognak esni. A többdimenziós skálázás segítségével a szavakat egy kétdimenziós térben elhelyezkedő ponthalmazként lehet ábrázolni, úgy, hogy a szavakat reprezentáló pontok között lévő távolság lehetőleg arányos legyen az előzőekben számított távolsággal, XX. E). (dr:— d). Az ilyen reprezentációban a pontok közötti geometriai kapcsolatok (például a távolság) az adatok közötti empirikus kapcsolatokat tükrôzik.?? Az egymáshoz leghasonlóbb szavakat összekötöttük, tovább segítve a szavak kapcsolatrendszerének, hálózatának feltárását. Az ábrán a szavak gyakoriságát körökkel jelöltük. A kör átmérője a gyakoriság logaritmusával arányos (pl. kétszer akkora kör tízszer akkora gyakoriságot mutat, háromszor akkora százszor. 21 A módszertan informatikai kialakítása Abonyi János munkája. Az előzményekkel kapcsolatban läsd Birher Nändor — Boros Istvan — Kocziha Mihály — Kolozsi Pál — Stummer Attila — SztrárayKézdy Éva: A kvantitatív szövegelemzés mint előrejelzési lehetőség, http://www.penzugyiszemle. hu/tanulmanyok-eloadasok/a-kvantitativ-szovegelemzes-mint-elorejelzesi-lehetoseg (Letöltés: 2017. december 14.)