OCR Output

III. SZÓELEMZÉS

esi
Vs
elszámol

§ sikkaszt

lenyúl
Reva Da / (G )kezeiscst

02- IN | [Oysaestiet © sta 7
oz |

/ N ze |
N | p me ES, menées À rendezetlen > kinumrendszer
/ à / CZ ea

atóság mé

10. ábra: Az Országgyűlés jegyzőkönyvei kulcsszavainak kapcsolati hálója

A SZÖVEGVIZSGÁLAT ELEMEI

Jelen kutatásunk a korábban szerzett tapasztalatokból kiindulva, azokat
kiegészítve a következő módszertan szerint zajlott:

Bag of words (szózsákmodelI)
A , szózsák" előállítása igazából a szöveg szókészletének kinyerése. A sza¬
vakat ezt követően a gyakoriságuk alapján tudjuk csoportosítani. Ez az
eljárás a tematikus elemzés alapja. Ezen az egyszerű módon van lehető¬
ségünk két szöveg hasonlóságát (a szavaik alapján) meghatározni.
A dokumentum klaszterezés legegyszerűbb módszere a

vektortér reprezentáció, melynek során egy d dokumentumot a lehetséges
szavak terében értelmezett d — (x1, x2, ..., xm) vektorként adunk meg. A vizsgált
dokumentumhalmaz összességét a szakirodalom korpusznak nevezi. Egy do¬
kumentumvektor xi eleme a korpusz szavaiból alkotott szótár i. szavára vonat¬
kozó mutató. A leggyakrabban használt szózsák modell (bag of words) esetén
ezt a mutatót az adott szó gyakorisági értékének (term freguency) választjuk

* 146 "