WSD - topic map alapon

A MASZEKER rendszerben a szabadalmi szövegek szemantikus reprezentációjának előállítása során fel kell oldani a kifejezések esetleges kétértelműségeit, tehát meg kell oldani a szavak jelentésegyértelműsítésének ("Word Sense Disambiguation" röviden "WSD") problémáját.

A rendszer szempontjából kulcsfontosságú igék esetében a WSD-feladatot a kontextusok detektálásának, és egy, a kontextusokat figyelembevevő szemantikus lexikon összeállításának feladatára vezetjük vissza. Feltesszük, hogy van olyan véges kontextushalmaz, amelyre teljesül, hogy

(i) az elemzendő szövegek olyan, tipikusan több szóból álló szegmensekre bonthatók, amelyeken belül az összes szó azonos kontextushoz tartozik, valamint
(ii) hogy az igék előfordulásainak jelentése megadható az őket tartalmazó szegmensre jellemző kontextus függvényeként.

A (ii) feltevésben említett függvényt a szemantikus lexikon tartalmazza (a részleteket lásd a 2. szakaszról készült Jelentés 3.3. mellékletében). Ezen túlmenően a rendszernek képesnek kell lennie az azonos kontextushoz tartozó szavakat tartalmazó szegmensek kijelölésére, és az egyes szegmensekhez tartozó kontextusok meghatározására.

Tartalomjegyzék

1 Kontextusok
2 Szegmensek
3 A szegmensekhez tartozó kontextus meghatározása
- 3.1 Néhány anyag a topikmap-alapú WSD-ről
4 WSD-anyagok Szegedről

Kontextusok

Jelenleg a következő kontextusokkal dolgozunk:

a felhasználás kontextusa,
az előállítás kontextusa,
a szerkezet kontextusa,
a működés kontextusa.

Szegmensek

A szegmensekre vonatkozó (egyik) munkahipotézisünk az, hogy azok a szövegszakaszok, amelyek két kulcs között helyezkednek el, mindig egyetlen szegmenshez tartoznak. Másképp fogalmazva: csak kulcs lehet szegmenshatár.

A szegmensekhez tartozó kontextus meghatározása

Az egyes szegmensekhez tartozó kontextusok meghatározásához jó kiindulópont lehet (a WSD-hez amúgy is egyre gyakrabban használt) topicmap-alapú megközelítés.

Ha a MASZEKER kontextusait topikoknak tekintjük, és statisztikai eszközökkel meghatározzuk az egyes kontextusokhoz tartozó topikmap-eket (szóeloszlásokat), akkor az irodalomban található módszerek (naiv Bayesiánus stb.) segítségével nagy valószínűséggel helyes hipotéziseket állíthatunk fel arról, hogy egy-egy szegmens milyen kontextusba tartozik.

Néhány anyag a topikmap-alapú WSD-ről

Cai, J. F, W. S Lee, and Y. W Teh. 2007. Improving word sense disambiguation using topic features. Proc. of EMNLP-2007. http://acl.ldc.upenn.edu/D/D07/D07-1108.pdf.
Li, L., B. Roth, and C. Sporleder. 2010. Topic models for word sense disambiguation and token-based idiom detection. In Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics, 1138–1147. http://www.aclweb.org/anthology/P/P10/P10-1116.pdf.
Az utóbbi cikk prezentációváltozata: http://www.coli.uni-saarland.de/~linlin/papers/acl10.slides.pdf

WSD-anyagok Szegedről

Korábban létrehoztunk egy WSD-korpuszt magyar nyelvre. A korpusz elérhető: [1]

Dokumentáció:

Szarvas György, Hatvani Csaba, Szauter Dóra, Almási Attila, Vincze Veronika, Csirik János 2007: Magyar jelentés-egyértelműsített korpusz. In: Tanács Attila, Csendes Dóra (szerk.): V. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2007). Szeged, Szegedi Tudományegyetem, pp. 158-165. [2]

Vincze, Veronika; Szarvas, György; Almási, Attila; Szauter, Dóra; Ormándi, Róbert; Farkas, Richárd; Hatvani, Csaba; Csirik, János 2008: Hungarian Word-sense Disambiguated Corpus. In: Proceedings of 6th International Conference on Language Resources and Evaluation LREC 2008, Marrakech, Morocco. [3]

WSD - topic map alapon

Tartalomjegyzék

Kontextusok

Szegmensek

A szegmensekhez tartozó kontextus meghatározása

Néhány anyag a topikmap-alapú WSD-ről

WSD-anyagok Szegedről

Személyes eszközök

Névterek

Változatok

Nézetek

Műveletek

Keresés

Navigáció

Eszközök