OCR
KVANTITATIV SZOVEGELEMZES adatbázisokban vannak. Célunk, hogy az írásos szövegekből kinyerjük azokat az összefüggéseket, amelyeknek belső, tartalmi vonatkozásai lehetnek. Ezáltal megjeleníthetjük azokat a tartalmi összefüggéseket, amelyeket a szöveg ugyan hordozott, de felismerésük — jellemzően a szövegek mennyisége miatt — nehézségekbe ütközött." A módszernek megfelelve jogszabályokat, bírósági határozatokat (joggyakorlat) és a témához kapcsolódó szakirodalom szövegeit dolgoztuk fel. Szövegbányászati eljárások Osztályozás Csoportosítás Információ Dokumentum- > Elöfeldolgozäsi > nformaciégylijtemény lépések kezelő > Informäciö- rendszer kinyerés Kivonatolas 7. ábra: A szövegbányászat általános modellje: (Forrás: Kondákor Balázs)" A szövegek feldolgozásához a KNIME?" szoftvert használtuk fel. A vizualizáció további szoftverek, így a Gephi 0.9.1 felhasználásával történt. A gépi szövegelemzésnek három fő megközelítési modelljét ismeri a szakirodalom. - A nyelvi megközelítés a strukturálatlan szöveget általában mondatokra bontja, és ezeket az adott természetes nyelv szabályai szerint mondatelemzésnek veti alá. A számos természetes nyelv, és azok számtalan nyelvi finomsága miatt egy szöveg tisztán nyelvi alapokon történő elemzése nagyon nehéz. — A tematikus megközelítés arra a feltételezésre épül, hogy egy dokumentum témájához (azaz, hogy miről is szól a szöveg?) azok a szavak állnak a legközelebb, amelyek a leggyakrabban szerepelnek a szövegben. A szótöveket a szereplési gyakoriság szerint rendezik. Általában az így rendezett szótövek legfelső 1096-át tekintik a dokumentum 25 Kondákor Balázs: Tudományterületek rejtett hálózatai, diplomadolgozat, Pannon Egyetem, Veszprém 2017. 216 Uo. 27 A platform teljes neve: Konstanz Informations Miner (https://www.knime.com). A fejlesztés 2004 óta folyik, jelenleg a nyílt forráskódú program alkalmas adatfeldolgozásra, elemzésre és vizualizációra, továbbá vannak gépi tanulást alkalmazó moduljai is. e 139 "