megkapjuk a szükséges valószínűséget. Pr(jogligazságos bíró) — [C(igazságos
bíró jog) II[C(igazságos bíró)]. A kutatásban trigram-modellt alkalmaztunk, így
három egymást követő szót sikerült az elemzéssel kinyernünk.
Term Co-occurrence — közös szóelőfordulás nem irányított gráfban
A szöveget ábrázolhatjuk egy gráfban, ahol a csúcsok reprezentálják a sza¬
vakat, míg az élek azon szavakat kötik össze egymással, melyek bizonyos
N távolságra vannak egymástól. Az N távolság lehet közvetlen egymás
mellett állás, esetleg egy mondatban vagy egy bekezdésben lévő közös
előfordulás vagy megadott szószámú távolság. A módszerrel anélkül köt¬
hetünk össze szavakat, hogy ismernénk a tényleges jelentésüket az adott
szövegben. Mivel esetünkben a gráfban a szavak egyenrangúak, nem tar¬
tozik hozzájuk ki- és be-fok, nem irányított gráfról beszélünk. A közös
szóelőfordulás megmutatja, hogy mely szavak hányszor fordulnak elő egy
adott szövegben vagy szövegrészben. Az elemzés során célszerű kiszűrni
azokat az együttes előfordulásokat, amelyeknek az értéke alacsony. Az ún.
row filtert alkalmazva kiszűrhetőek ezek az értékek. Esetünkben a három¬
nál gyakoribb együttes előfordulásokat vizsgáltuk azonos bekezdésen be¬
lül. (Az ennél kisebb értékű együttes előfordulások vizsgálata egy négy¬
ötszáz oldalas dokumentum esetében már akkora számítási kapacitást
igényelt volna, amelyik egy átlagosan jó teljesítményű géppel nem elérhe¬
tő. Ezen túl pedig az elemzés szempontjából sem hordoz igazán új infor¬
mációt.)
A szövegben meghatározhatók kulcsszavak, amelyeket a program a Yukio
Ohsawa által kidolgozott KeyGraph algoritmus cikkben leírt algoritmus
alapján végez el.?? A kiválasztás alapját a szavak előfordulásának gyako¬
risága adja, azonban az algoritmus a szavakat klaszterekbe is rendezi, és
a klasztereket összekötő szavakat tekinti kulcsszónak — innen a Co¬
occurrence Graph elnevezés is.
2233 Ohsawa, Yukio — Benson, Nels E. — Yachida, Masahiko: KeyGraph: Automatic Indexing by Co¬
occurrence Graph based on Building Construction Metaphor, http://citeseerx.ist.psu.edu/
viewdoc/download?doi=10.1.1.472.9280&rep=repl&type=pdf (Letöltés: 2018. január 8.)