OCR
A MAGYAR NYELV A TUDOMÁNYBAN. A TERMINOLÓGIA HELYE, SZEREPE ÉS FELADATAI szokták szóvá tenni, hogy nyelvész létünkre túl sok , idegen szót használunk", és hogy ne használjunk bizonyos szavakat, mert azok nem , magyarosak". Azonban a modern terminológiai munkát nem szabad összekeverni a , szócsinálással" és a „nyelvvedelemmel”. A terminológia modern irányzatai elsősorban nem előíróak (nem preskriptívek), hanem leíró (deskriptív) jellegűek. A terminológus feladata a szakmai fogalomrendszer és a terminológiai rendszer felderítése, leírása, közzététele oly módon, hogy ezzel elősegítse a hatékony szakmai kommunikációt, támogassa a nem szakmabelieket a szakszövegek írása és fordítása során, hogy elősegítse a képzést (a szakmai és a tudományos képzést egyaránt). A számítógépes nyelvészettel foglalkozó kollégáktól másfajta kételyek és javaslatok érkeznek. Mi értelme van ennek az aprólékos adatgyűjtésnek, amit a terminológusok csinálnak? Ők számítógépes nyelvészeti módszerekkel gyorsan sÖsszegereblyéznek nekünk?" több ezer, több millió szót, és akkor mi válogathatunk azok közül. A terminuskivonatolás régóta létező dolog, de sajnos nem tökéletes. Van, amire alkalmas, például tolmácsok számára kulcsszavak kigyűjtése egy több ezer oldalas anyagból. Terminológiai adatbázis készítésére emberi munka nélkül viszont sajnos nem alkalmas, egyrészről azért, mert a terminológiában nagyon fontos, hogy szakmailag megbízható, hiteles forrásokból származó adatokat gyűjtsünk össze és tegyünk közzé (a hiteles források azonosítása pedig nem nélkülözheti a szakembert), másrészről azért, mert a terminusokat a tartalmuk alapján különítjük el, jelenleg azonban a szemantikai elemzés még nem elég fejlett ehhez, morfológiai alapon pedig nem tudjuk a terminusokat megbízhatóan kiválogatni. Tudjuk, hogy a számítógépes nyelvészetnek megvannak a megfelelő eszközei arra, hogy meglevő szótárakat, adatbázisokat akár sok nyelven összekapcsoljanak egymással. A gond mindig ugyanaz: nem állnak rendelkezésünkre a részletes, pontos, naprakész terminológiai adatok. (Ezt nagyon jól lehetett észlelni például az EurolermBank projekt keretében, ahol szintén a tesztelés során derült ki, hogy a számítógépes nyelvészeti eszközök kiválóak, az adatok azonban hiányosak.) Talán a legjobban az élővilág kategorizációjához hasonlíthatnánk a terminológiai munkafolyamatot: minden egyes növény- és állatfaj egy-egy példányát kézbe kell venni, és le kell írni a tulajdonságaikat egy adott rendszer szerint, úgy, hogy az a leírás az adott rendszerbe beilleszthető legyen; csak megbízható adatokból építhető fel egy rendszer és egy vagy több adatbázis. Pontosan kell tudnunk, milyen források alapján dolgozunk, és az adatbázisokban pontosan jelölnünk is kell az adatok forrását — ebből következik az, hogy az adatbázis megbízható lesz, az adatok pedig ellenőrizhetők. A korpusznyelvészetben azért dolgoznak olyan nagy mennyiségű adattal (például a Magyar Nemzeti Szövegtár IMNSZI első verziója milliós, a most készülő második verziója milliárdnyi szövegszót tartalmaz), mert statisztikailag megbízha+ 35 +