OCR
A SZÖVEGVIZSGÁLAT ELEMEI meg. Igaz, hogy ez információveszteséggel jár, hiszen elveszítjük a szósorrendet, de egy ilyen vektortéren azután már minden szokásos klaszterezési művelet elvégezhető.?2? Látszólag egyértelműnek tűnik a szavak megszámolása, azonban ez korántsem ennyire egyszerű, hiszen meg kell állapítani a szótöveket, amelyek az összehasonlítás alapját adják. Ezen túl ki kell szűrni az elemzés szempontjából jelentést nem hordozó ún. stop-word-öket. Kezelni kell a kis- és nagybetűk, illetve a szövegben előforduló számok (numerikus jelek) kérdését is. Minden ilyen feladatra különböző szűrőket állíthatunk be. Érdemes lehet a három karakternél rövidebb szavak kiszűrése is. A Bag of Words modell a szavak osztályozásakor egy vektort generál, amely tartalmazza, hogy egy adott szó hányszor szerepel a szövegben. Alább egy példa: (1) [1, 2, 1, 1, 2, 1, 1,0, 0, 0] (2) [1, 1, 1, 1,0, 0, 0, 1, 1,1] A szózsák segítségével meghatározható a szavak előfordulási gyakorisága a szöveg összes szavainak számához képest (Term freguency). N-gram Az N-gram modell egy N darab szóból álló vektorokat tartalmazó modell. N érték tetszés szerint választható meg. Például, ha N = 1, akkor ez a modell gyakorlatilag a Bag of Words modellnek felel meg, ha N = 2 (mas néven bigram), akkor minden egyes vektor két szót tartalmaz: , erkölcs filozófia", ha N = 3, akkor , jog erkölcs viszony" vagy , viszony erkölcs jog" vektorok fognak létrejönni. Ahhoz, hogy meg tudjuk becsülni, hogy egy adott szó után milyen szó fog legnagyobb valószínűséggel következni, az N-gram modell lehet a legfontosabb eszközünk. Ennek a valószínűségnek a kiszámítása a Pr(WIH) valószínűséggel számolható ki, ahol a W egy adott szó, míg a H az a szöveg, ami után a W szó következik. Legyen esetünkben a W , jog", a H pedig , igazságos bíró". Ebből a Pr(W|H) alak: Pr(jogligazságos bíró). Az elemzés során meg kell számolni, hogy hányszor szerepel az ,igazságos bíró" szókapcsolat a szövegben, továbbá hányszor szerepel mindez együtt a jog szóval. Majd a kapott eredmény hányadosából 222 Kruzslicz Ferenc: Összehasonlító klaszterjellemzés külső, szöveges források bevonásával, Statisztikai Szemle, 94. évf., 2016/11-12, 1126. + 147 +