OCR Output

KVANTITATIV SZOVEGELEMZES

adatbázisokban vannak. Célunk, hogy az írásos szövegekből kinyerjük
azokat az összefüggéseket, amelyeknek belső, tartalmi vonatkozásai le¬
hetnek. Ezáltal megjeleníthetjük azokat a tartalmi összefüggéseket, ame¬
lyeket a szöveg ugyan hordozott, de felismerésük — jellemzően a szövegek
mennyisége miatt — nehézségekbe ütközött." A módszernek megfelelve
jogszabályokat, bírósági határozatokat (joggyakorlat) és a témához kap¬
csolódó szakirodalom szövegeit dolgoztuk fel.

Szövegbányászati eljárások

Osztályozás Csoportosítás Információ
Dokumentum- > Elöfeldolgozäsi > nformacié¬
gylijtemény lépések kezelő >

Informäciö- rendszer

kinyerés Kivonatolas

7. ábra: A szövegbányászat általános modellje: (Forrás: Kondákor Balázs)"

A szövegek feldolgozásához a KNIME?" szoftvert használtuk fel. A vizu¬
alizáció további szoftverek, így a Gephi 0.9.1 felhasználásával történt.

A gépi szövegelemzésnek három fő megközelítési modelljét ismeri a szak¬
irodalom.

- A nyelvi megközelítés a strukturálatlan szöveget általában mondatok¬
ra bontja, és ezeket az adott természetes nyelv szabályai szerint mon¬
datelemzésnek veti alá. A számos természetes nyelv, és azok számta¬
lan nyelvi finomsága miatt egy szöveg tisztán nyelvi alapokon történő
elemzése nagyon nehéz.

— A tematikus megközelítés arra a feltételezésre épül, hogy egy doku¬
mentum témájához (azaz, hogy miről is szól a szöveg?) azok a szavak
állnak a legközelebb, amelyek a leggyakrabban szerepelnek a szöveg¬
ben. A szótöveket a szereplési gyakoriság szerint rendezik. Általában
az így rendezett szótövek legfelső 1096-át tekintik a dokumentum

25 Kondákor Balázs: Tudományterületek rejtett hálózatai, diplomadolgozat, Pannon Egyetem,
Veszprém 2017.

216 Uo.

27 A platform teljes neve: Konstanz Informations Miner (https://www.knime.com). A fejlesztés
2004 óta folyik, jelenleg a nyílt forráskódú program alkalmas adatfeldolgozásra, elemzésre és
vizualizációra, továbbá vannak gépi tanulást alkalmazó moduljai is.

e 139 "