Skip to main content
mobile

L'Harmattan Open Access platform

  • Search
  • OA Collections
  • L'Harmattan Archive
Englishen
  • Françaisfr
  • Deutschde
  • Magyarhu
LoginRegister
  • Volume Overview
  • Page
  • Text
  • Metadata
  • Clipping
Preview
022_000026/0000

Értékalapú (köz)igazgatás

  • Preview
  • PDF
  • Show Metadata
  • Show Permalink
Author
Birher Nándor
Title (EN)
Values-based (public) Governance
Field of science
Jogtudomány / Law (12870)
Series
Károli könyvek. Monográfia
Type of publication
monográfia
022_000026/0147
  • Volume Overview
  • Page
  • Text
  • Metadata
  • Clipping
Page 148 [148]
  • Preview
  • Show Permalink
  • JPG
  • TIFF
  • Prev
  • Next
022_000026/0147

OCR

A SZÖVEGVIZSGÁLAT ELEMEI meg. Igaz, hogy ez információveszteséggel jár, hiszen elveszítjük a szósorrendet, de egy ilyen vektortéren azután már minden szokásos klaszterezési művelet elvégezhető.?2? Látszólag egyértelműnek tűnik a szavak megszámolása, azonban ez korántsem ennyire egyszerű, hiszen meg kell állapítani a szótöveket, amelyek az összehasonlítás alapját adják. Ezen túl ki kell szűrni az elemzés szempontjából jelentést nem hordozó ún. stop-word-öket. Kezelni kell a kis- és nagybetűk, illetve a szövegben előforduló számok (numerikus jelek) kérdését is. Minden ilyen feladatra különböző szűrőket állíthatunk be. Érdemes lehet a három karakternél rövidebb szavak kiszűrése is. A Bag of Words modell a szavak osztályozásakor egy vektort generál, amely tartalmazza, hogy egy adott szó hányszor szerepel a szövegben. Alább egy példa: (1) [1, 2, 1, 1, 2, 1, 1,0, 0, 0] (2) [1, 1, 1, 1,0, 0, 0, 1, 1,1] A szózsák segítségével meghatározható a szavak előfordulási gyakorisága a szöveg összes szavainak számához képest (Term freguency). N-gram Az N-gram modell egy N darab szóból álló vektorokat tartalmazó modell. N érték tetszés szerint választható meg. Például, ha N = 1, akkor ez a modell gyakorlatilag a Bag of Words modellnek felel meg, ha N = 2 (mas néven bigram), akkor minden egyes vektor két szót tartalmaz: , erkölcs filozófia", ha N = 3, akkor , jog erkölcs viszony" vagy , viszony erkölcs jog" vektorok fognak létrejönni. Ahhoz, hogy meg tudjuk becsülni, hogy egy adott szó után milyen szó fog legnagyobb valószínűséggel következni, az N-gram modell lehet a legfontosabb eszközünk. Ennek a valószínűségnek a kiszámítása a Pr(WIH) valószínűséggel számolható ki, ahol a W egy adott szó, míg a H az a szöveg, ami után a W szó következik. Legyen esetünkben a W , jog", a H pedig , igazságos bíró". Ebből a Pr(W|H) alak: Pr(jogligazságos bíró). Az elemzés során meg kell számolni, hogy hányszor szerepel az ,igazságos bíró" szókapcsolat a szövegben, továbbá hányszor szerepel mindez együtt a jog szóval. Majd a kapott eredmény hányadosából 222 Kruzslicz Ferenc: Összehasonlító klaszterjellemzés külső, szöveges források bevonásával, Statisztikai Szemle, 94. évf., 2016/11-12, 1126. + 147 +

Structural

Custom

Image Metadata

Image width
1867 px
Image height
2670 px
Image resolution
300 px/inch
Original File Size
1.06 MB
Permalink to jpg
022_000026/0147.jpg
Permalink to ocr
022_000026/0147.ocr

Links

  • L'Harmattan Könyvkiadó
  • Open Access Blog
  • Kiadványaink az MTMT-ben
  • Kiadványaink a REAL-ban
  • CrossRef Works
  • ROR ID

Contact

  • L'Harmattan Szerkesztőség
  • Kéziratleadási szabályzat
  • Peer Review Policy
  • Adatvédelmi irányelvek
  • Dokumentumtár
  • KBART lists
  • eduID Belépés

Social media

  • Facebook
  • Instagram
  • LinkedIn

L'Harmattan Open Access platform

LoginRegister

User login

eduId Login
I forgot my password
  • Search
  • OA Collections
  • L'Harmattan Archive
Englishen
  • Françaisfr
  • Deutschde
  • Magyarhu