az elemzésben szereplő szavak számával, az oszlopok pedig az elemzett jegy¬
zőkönyveket reprezentálják. Fontos megjegyezni, hogy ebben a , szózsákmo¬
dellben" a szavak sorrendje a dokumentumban nem releváns, csupán azok
együttes előfordulását vizsgáljuk.
A dr; relevancia értéket a k-adik szó i-edik dokumentumban való elő¬
fordulásának gyakorisága (J4,) alapján, logaritmikus súlyfüggvény se¬
gitségével szamitottuk: w,; = 1 + logn,;, mely értéket normalizältuk:
Xj = Weil h-1 We» kezelve, minthogy a szavak dokumentumoktöl függet¬
len előfordulási gyakorisága eltérő.
Tekintettel arra, hogy a szavak különböző alakban fordulhatnak elő,
ezeket az előfordulásokat a modellben szótövezés segítségével közös, ka¬
nonikus alakban összesítve reprezentáltuk. A szótövezésre az Ocamorph
programcsomagot használtuk, a Hunspell helyesírási adatbázis felhaszná¬
lásával.
A szavak hasonlóságát előfordulásuk korrelációjával mértük, azaz a ha¬
sonlösägot is reprezentáló S kovariancia mátrix a k és I indexű szavak
hasonlóságát reprezentáló elemei a D dokumentum mátrix k-adik és L-edik
sorvektorainak korrelációja alapján kerültek számításra s, , — cov(y y).
A távolságtartó leképezéssel készített térképen tehát azok a szavak ke¬
rülnek közel egymáshoz, melyek a különböző jegyzőkönyvekben azonos
arányban fordulnak elő. A szavak távolságát a képlettel számoltuk, azaz
azok a szavak, melyek előfordulása teljes mértékében korrelál, távolsága
nulla, azaz a térképen várhatóan egy pontba fognak esni.
A többdimenziós skálázás segítségével a szavakat egy kétdimenziós
térben elhelyezkedő ponthalmazként lehet ábrázolni, úgy, hogy a szavakat
reprezentáló pontok között lévő távolság lehetőleg arányos legyen az elő¬
zőekben számított távolsággal, XX. E). (dr:— d). Az ilyen reprezentá¬
cióban a pontok közötti geometriai kapcsolatok (például a távolság) az
adatok közötti empirikus kapcsolatokat tükrôzik.??
Az egymáshoz leghasonlóbb szavakat összekötöttük, tovább segítve
a szavak kapcsolatrendszerének, hálózatának feltárását. Az ábrán a szavak
gyakoriságát körökkel jelöltük. A kör átmérője a gyakoriság logaritmusával
arányos (pl. kétszer akkora kör tízszer akkora gyakoriságot mutat, három¬
szor akkora százszor.