lenyúl
Reva Da / (G )kezeiscst
02- IN | [Oysaestiet © sta 7
oz |
/ N ze |
N | p me ES, menées À rendezetlen > kinumrendszer
/ à / CZ ea
10. ábra: Az Országgyűlés jegyzőkönyvei kulcsszavainak kapcsolati hálója
Jelen kutatásunk a korábban szerzett tapasztalatokból kiindulva, azokat
kiegészítve a következő módszertan szerint zajlott:
Bag of words (szózsákmodelI)
A , szózsák" előállítása igazából a szöveg szókészletének kinyerése. A sza¬
vakat ezt követően a gyakoriságuk alapján tudjuk csoportosítani. Ez az
eljárás a tematikus elemzés alapja. Ezen az egyszerű módon van lehető¬
ségünk két szöveg hasonlóságát (a szavaik alapján) meghatározni.
A dokumentum klaszterezés legegyszerűbb módszere a
vektortér reprezentáció, melynek során egy d dokumentumot a lehetséges
szavak terében értelmezett d — (x1, x2, ..., xm) vektorként adunk meg. A vizsgált
dokumentumhalmaz összességét a szakirodalom korpusznak nevezi. Egy do¬
kumentumvektor xi eleme a korpusz szavaiból alkotott szótár i. szavára vonat¬
kozó mutató. A leggyakrabban használt szózsák modell (bag of words) esetén
ezt a mutatót az adott szó gyakorisági értékének (term freguency) választjuk