szokták szóvá tenni, hogy nyelvész létünkre túl sok , idegen szót használunk", és
hogy ne használjunk bizonyos szavakat, mert azok nem , magyarosak". Azonban
a modern terminológiai munkát nem szabad összekeverni a , szócsinálással" és
a „nyelvvedelemmel”. A terminológia modern irányzatai elsősorban nem előíró¬
ak (nem preskriptívek), hanem leíró (deskriptív) jellegűek. A terminológus fel¬
adata a szakmai fogalomrendszer és a terminológiai rendszer felderítése, leírása,
közzététele oly módon, hogy ezzel elősegítse a hatékony szakmai kommuniká¬
ciót, támogassa a nem szakmabelieket a szakszövegek írása és fordítása során,
hogy elősegítse a képzést (a szakmai és a tudományos képzést egyaránt).
A számítógépes nyelvészettel foglalkozó kollégáktól másfajta kételyek és ja¬
vaslatok érkeznek. Mi értelme van ennek az aprólékos adatgyűjtésnek, amit a
terminológusok csinálnak? Ők számítógépes nyelvészeti módszerekkel gyorsan
sÖsszegereblyéznek nekünk?" több ezer, több millió szót, és akkor mi válogatha¬
tunk azok közül. A terminuskivonatolás régóta létező dolog, de sajnos nem tö¬
kéletes. Van, amire alkalmas, például tolmácsok számára kulcsszavak kigyűjté¬
se egy több ezer oldalas anyagból. Terminológiai adatbázis készítésére emberi
munka nélkül viszont sajnos nem alkalmas, egyrészről azért, mert a terminoló¬
giában nagyon fontos, hogy szakmailag megbízható, hiteles forrásokból szárma¬
zó adatokat gyűjtsünk össze és tegyünk közzé (a hiteles források azonosítása
pedig nem nélkülözheti a szakembert), másrészről azért, mert a terminusokat a
tartalmuk alapján különítjük el, jelenleg azonban a szemantikai elemzés még
nem elég fejlett ehhez, morfológiai alapon pedig nem tudjuk a terminusokat
megbízhatóan kiválogatni. Tudjuk, hogy a számítógépes nyelvészetnek megvan¬
nak a megfelelő eszközei arra, hogy meglevő szótárakat, adatbázisokat akár sok
nyelven összekapcsoljanak egymással. A gond mindig ugyanaz: nem állnak
rendelkezésünkre a részletes, pontos, naprakész terminológiai adatok. (Ezt nagyon
jól lehetett észlelni például az EurolermBank projekt keretében, ahol szintén a
tesztelés során derült ki, hogy a számítógépes nyelvészeti eszközök kiválóak, az
adatok azonban hiányosak.) Talán a legjobban az élővilág kategorizációjához
hasonlíthatnánk a terminológiai munkafolyamatot: minden egyes növény- és
állatfaj egy-egy példányát kézbe kell venni, és le kell írni a tulajdonságaikat egy
adott rendszer szerint, úgy, hogy az a leírás az adott rendszerbe beilleszthető
legyen; csak megbízható adatokból építhető fel egy rendszer és egy vagy több
adatbázis. Pontosan kell tudnunk, milyen források alapján dolgozunk, és az
adatbázisokban pontosan jelölnünk is kell az adatok forrását — ebből következik
az, hogy az adatbázis megbízható lesz, az adatok pedig ellenőrizhetők. A kor¬
pusznyelvészetben azért dolgoznak olyan nagy mennyiségű adattal (például a
Magyar Nemzeti Szövegtár IMNSZI első verziója milliós, a most készülő máso¬
dik verziója milliárdnyi szövegszót tartalmaz), mert statisztikailag megbízha¬