OCR
III. SZÓELEMZÉS esi Vs elszámol § sikkaszt lenyúl Reva Da / (G )kezeiscst 02- IN | [Oysaestiet © sta 7 oz | / N ze | N | p me ES, menées À rendezetlen > kinumrendszer / à / CZ ea atóság mé 10. ábra: Az Országgyűlés jegyzőkönyvei kulcsszavainak kapcsolati hálója A SZÖVEGVIZSGÁLAT ELEMEI Jelen kutatásunk a korábban szerzett tapasztalatokból kiindulva, azokat kiegészítve a következő módszertan szerint zajlott: Bag of words (szózsákmodelI) A , szózsák" előállítása igazából a szöveg szókészletének kinyerése. A szavakat ezt követően a gyakoriságuk alapján tudjuk csoportosítani. Ez az eljárás a tematikus elemzés alapja. Ezen az egyszerű módon van lehetőségünk két szöveg hasonlóságát (a szavaik alapján) meghatározni. A dokumentum klaszterezés legegyszerűbb módszere a vektortér reprezentáció, melynek során egy d dokumentumot a lehetséges szavak terében értelmezett d — (x1, x2, ..., xm) vektorként adunk meg. A vizsgált dokumentumhalmaz összességét a szakirodalom korpusznak nevezi. Egy dokumentumvektor xi eleme a korpusz szavaiból alkotott szótár i. szavára vonatkozó mutató. A leggyakrabban használt szózsák modell (bag of words) esetén ezt a mutatót az adott szó gyakorisági értékének (term freguency) választjuk * 146 "