WSD - topic map alapon
A MASZEKER rendszerben a szabadalmi szövegek szemantikus reprezentációjának előállítása során fel kell oldani a kifejezések esetleges kétértelműségeit, tehát meg kell oldani a szavak jelentésegyértelműsítésének ("Word Sense Disambiguation" röviden "WSD") problémáját.
A rendszer szempontjából kulcsfontosságú igék esetében a WSD-feladatot a kontextusok detektálásának, és egy, a kontextusokat figyelembevevő szemantikus lexikon összeállításának feladatára vezetjük vissza. Feltesszük, hogy van olyan véges kontextushalmaz, amelyre teljesül, hogy
- (i) az elemzendő szövegek olyan, tipikusan több szóból álló szegmensekre bonthatók, amelyeken belül az összes szó azonos kontextushoz tartozik, valamint
- (ii) hogy az igék előfordulásainak jelentése megadható az őket tartalmazó szegmensre jellemző kontextus függvényeként.
A (ii) feltevésben említett függvényt a szemantikus lexikon tartalmazza (a részleteket lásd a 2. szakaszról készült Jelentés 3.3. mellékletében). Ezen túlmenően a rendszernek képesnek kell lennie az azonos kontextushoz tartozó szavakat tartalmazó szegmensek kijelölésére, és az egyes szegmensekhez tartozó kontextusok meghatározására.
Tartalomjegyzék |
Kontextusok
Jelenleg a következő kontextusokkal dolgozunk:
- a felhasználás kontextusa,
- az előállítás kontextusa,
- a szerkezet kontextusa,
- a működés kontextusa.
Szegmensek
A szegmensekre vonatkozó (egyik) munkahipotézisünk az, hogy azok a szövegszakaszok, amelyek két kulcs között helyezkednek el, mindig egyetlen szegmenshez tartoznak. Másképp fogalmazva: csak kulcs lehet szegmenshatár.
A szegmensekhez tartozó kontextus meghatározása
Az egyes szegmensekhez tartozó kontextusok meghatározásához jó kiindulópont lehet (a WSD-hez amúgy is egyre gyakrabban használt) topicmap-alapú megközelítés.
Ha a MASZEKER kontextusait topikoknak tekintjük, és statisztikai eszközökkel meghatározzuk az egyes kontextusokhoz tartozó topikmap-eket (szóeloszlásokat), akkor az irodalomban található módszerek (naiv Bayesiánus stb.) segítségével nagy valószínűséggel helyes hipotéziseket állíthatunk fel arról, hogy egy-egy szegmens milyen kontextusba tartozik.
Néhány anyag a topikmap-alapú WSD-ről
- Cai, J. F, W. S Lee, and Y. W Teh. 2007. Improving word sense disambiguation using topic features. Proc. of EMNLP-2007. http://acl.ldc.upenn.edu/D/D07/D07-1108.pdf.
- Li, L., B. Roth, and C. Sporleder. 2010. Topic models for word sense disambiguation and token-based idiom detection. In Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics, 1138–1147. http://www.aclweb.org/anthology/P/P10/P10-1116.pdf.
- Az utóbbi cikk prezentációváltozata: http://www.coli.uni-saarland.de/~linlin/papers/acl10.slides.pdf
WSD-anyagok Szegedről
Korábban létrehoztunk egy WSD-korpuszt magyar nyelvre. A korpusz elérhető: [1]
Dokumentáció:
Szarvas György, Hatvani Csaba, Szauter Dóra, Almási Attila, Vincze Veronika, Csirik János 2007: Magyar jelentés-egyértelműsített korpusz. In: Tanács Attila, Csendes Dóra (szerk.): V. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2007). Szeged, Szegedi Tudományegyetem, pp. 158-165. [2]
Vincze, Veronika; Szarvas, György; Almási, Attila; Szauter, Dóra; Ormándi, Róbert; Farkas, Richárd; Hatvani, Csaba; Csirik, János 2008: Hungarian Word-sense Disambiguated Corpus. In: Proceedings of 6th International Conference on Language Resources and Evaluation LREC 2008, Marrakech, Morocco. [3]