WSD - topic map alapon

A MASZEKER wiki wikiből

A MASZEKER rendszerben a szabadalmi szövegek szemantikus reprezentációjának előállítása során fel kell oldani a kifejezések esetleges kétértelműségeit, tehát meg kell oldani a szavak jelentésegyértelműsítésének ("Word Sense Disambiguation" röviden "WSD") problémáját.

A rendszer szempontjából kulcsfontosságú igék esetében a WSD-feladatot a kontextusok detektálásának, és egy, a kontextusokat figyelembevevő szemantikus lexikon összeállításának feladatára vezetjük vissza. Feltesszük, hogy van olyan véges kontextushalmaz, amelyre teljesül, hogy

  • (i) az elemzendő szövegek olyan, tipikusan több szóból álló szegmensekre bonthatók, amelyeken belül az összes szó azonos kontextushoz tartozik, valamint
  • (ii) hogy az igék előfordulásainak jelentése megadható az őket tartalmazó szegmensre jellemző kontextus függvényeként.

A (ii) feltevésben említett függvényt a szemantikus lexikon tartalmazza (a részleteket lásd a 2. szakaszról készült Jelentés 3.3. mellékletében). Ezen túlmenően a rendszernek képesnek kell lennie az azonos kontextushoz tartozó szavakat tartalmazó szegmensek kijelölésére, és az egyes szegmensekhez tartozó kontextusok meghatározására.

Tartalomjegyzék

Kontextusok

Jelenleg a következő kontextusokkal dolgozunk:

  • a felhasználás kontextusa,
  • az előállítás kontextusa,
  • a szerkezet kontextusa,
  • a működés kontextusa.

Szegmensek

A szegmensekre vonatkozó (egyik) munkahipotézisünk az, hogy azok a szövegszakaszok, amelyek két kulcs között helyezkednek el, mindig egyetlen szegmenshez tartoznak. Másképp fogalmazva: csak kulcs lehet szegmenshatár.

A szegmensekhez tartozó kontextus meghatározása

Az egyes szegmensekhez tartozó kontextusok meghatározásához jó kiindulópont lehet (a WSD-hez amúgy is egyre gyakrabban használt) topicmap-alapú megközelítés.

Ha a MASZEKER kontextusait topikoknak tekintjük, és statisztikai eszközökkel meghatározzuk az egyes kontextusokhoz tartozó topikmap-eket (szóeloszlásokat), akkor az irodalomban található módszerek (naiv Bayesiánus stb.) segítségével nagy valószínűséggel helyes hipotéziseket állíthatunk fel arról, hogy egy-egy szegmens milyen kontextusba tartozik.

Néhány anyag a topikmap-alapú WSD-ről

WSD-anyagok Szegedről

Korábban létrehoztunk egy WSD-korpuszt magyar nyelvre. A korpusz elérhető: [1]

Dokumentáció:

Szarvas György, Hatvani Csaba, Szauter Dóra, Almási Attila, Vincze Veronika, Csirik János 2007: Magyar jelentés-egyértelműsített korpusz. In: Tanács Attila, Csendes Dóra (szerk.): V. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2007). Szeged, Szegedi Tudományegyetem, pp. 158-165. [2]

Vincze, Veronika; Szarvas, György; Almási, Attila; Szauter, Dóra; Ormándi, Róbert; Farkas, Richárd; Hatvani, Csaba; Csirik, János 2008: Hungarian Word-sense Disambiguated Corpus. In: Proceedings of 6th International Conference on Language Resources and Evaluation LREC 2008, Marrakech, Morocco. [3]

Személyes eszközök
Névterek

Változatok
Műveletek
Navigáció
Eszközök