WP3

A MASZEKER wiki wikiből

Tartalomjegyzék

Logikai alapok

Szemantika

Specifikáció

Keresés alapváltozatának specifikációja

Fogalmi szint

A keresés során a következő nyelvekkel (ill. ezeken megfogalmazott "szövegekkel") dolgozunk:

  • természetes nyelv,
  • a szintaktikus elemzés eredményének reprezentációs nyelve (ezen a szinten a szövegek lényegében az elemzési fák),
  • a jelentésreprezentációs nyelv.


A feltételezett erőforrás: a természetes nyelv egyértelműsített szavainak/szóösszetételeit (továbbiakban literálok) rendező lexikon, amely

  • a szinonim kifejezéseket egy halmazba (synsetbe) gyűjti,
  • ezek között a speciálisabb/általánosabb (hiponíma/hiperníma) relációt reprezentálja,
  • esetleges további relációkat tartalmaz.

(Feltételezésünk szerint ez egy WordNet átdolgozott/módosított példánya lesz.)

A jelentésreprezentációs nyelvre mint fogalmi nyelvre gondolunk; akkor is, ha részletes jelentésreprezentációt nincs szándékunkban adni. Azaz a jelentésreprezentációs nyelv elemei

  • fogalmak azonosítói (kis egyszerűsítéssel élve: természetes számok),
  • ezek közti relációk.

Neo-davidsoniánus megközelítéssel a relációk javát (kivétel lehet pl. a "része") reifikáljuk, azaz a relációk java meta-reláció lesz. (Szokott nyelvészeti kifejezésekkel azt mondhatjuk, hogy az igéknek és a perdurant jelentésű főneveknek is fogalmakat feleltetünk meg, és az igék vonzatait, szabad határozóit tematikus szerephez hasonló relációkkal kötjük a fogalomhoz.) A lexikon és a jelentésreprezentációs nyelv közt egy leképzés van, amely a synseteket a fogalmak azonosítóiba képzi, a vonzatkeret elemeinek metarelációkat feleltet meg.

Tehát ha logikai nyelven írjuk le a jelentésreprezentációs nyelvet, a hasonlósági típusa áll

  • egy argumentumú relációkból,
  • kétargumentumú relációkból,
  • esetleges individuum konstansokból.

A keresés menete

A keresés a keresőkifejezésből indul, s az vezérli. Nagy vonalakban a következő lépésekből áll: 1.) A kereső kifejezés jelentésreprezentációjának generálása (azaz a természetes nyelvű kifejezés a jelentésreprezentáció nyelvébe transzfomáltatik)

2.) A kereső kifejezésben előforduló szavak alapján egy kulcsszó szerinti keresés történik az archívumban, az ez által megtalált dokumentumok lesznek a további eljárás alanyai.

3.) A 2.)-pontban kiválasztott dokumentumokból kiválasztja az algoritmus azokat az összefüggő szövegrészeket, amelyekben a megtalált kulcsszavak szerepelnek. Ezekre illeszti a kereső kifejezés jelentés reprezentációját. (Szabadalmaknál ez egy főigénypont, és néhány hozzáfűzött aligénypont lesz.) Az illesztéstől függően minősíti a dokumentum relevanciáját. A dokumentum minősítéséről is a pont részletes leírásánál fogunk beszélni.

A kereső kifejezés jelentésreprezentációjának generálása

Maga a kereső kifejezés egy kontrollált természetes nyelven lesz megadva. Számunkra itt a legfontosabb az, hogy a kereső kifejezés egymástól jól elkülönített elemi frázisokból (tagmondatokból) áll, egyértelmű hivatkozással. Az egyes tagmondatokat az algoritmus a hivatkozásokat figyelembe véve külön

  • szintaktikailag elemezi,
  • generálja a jelentésreprezentációt.

Így a kereső kifejezés jelentésreprezentációja az elemi frázisok reprezentációjának halmaza, amelyeket közös individuumhivatkozások kötnek össze. A keresés során az elemi frázisokhoz külön keresünk arra hivatkozó szövegfragmentumokat, a hivatkozások közös voltát később ellenőrizzük.

Kulcsszó szerinti keresés

Csak a kulcsszóhalmaz kijelölése kérdéses. A kereső kifejezés szavaiból választott szókészlethez hozzá kell venni azok szinonímáit, valamint hiponimiáit. A találatoknál a talált szavakat meg kell jelölni, és címkézni a kereső kifejezésben szereplő azon elem azonosítójával, amelyre hivatkozhat.

A problémák:

  • a kereső kifejezésben szereplő összes szót vegyük fel kulcsszónak? Ha felvesszük, sok "szemét" kerülhet be a találatok közé. Viszont ha nem, akkor nem lesznek fontos szavak kijelölve - bár ez utólag pótolható. Kérdés, hogy a felhasználó jelezze-e azokat a szavakat, amelyekkel a keresés indulhat, vagy tudunk általános elveket találni ezek kiválasztására. Például a "contain" és szinonimái majd minden főigénypontban megtalálhatóak.
  • hány találat kell ahhoz, hogy egy dokumentumot bevegyünk a találati halmazba? Egy szó nyilvánvalóan nem elég, de az is meggondolandó, hogy legalább egy elemi kereső kifejezésben legalább két elemi szóhoz találjon megfelelőt.
A kereső kifejezés jelentésreprezentációjának illesztése szöveggel

Egy dokumentum, egy kiválasztott szövegrészére próbálja a módszer illeszteni a kereső kifejezés jelentésreprezentációját. Az illesztésre három módszer adódik. Mind három esetben az illesztést az egyes elemi kifejezések jelentésreprezentációja vezérli: a fejet illesztjük először, majd a dependenseit (ahogy a jelentésben is vázolva van).

1.) A szöveg jelentésreprezentációjához illeszteni a kereső kifejezés jelentésreprezentációját

A kiválasztott szövegrész jelentésreprezetációja generáltatik, és a két reprezentáció hasonlíttatik össze. Az összehasonlítás ebben egyszerű illesztés, ahol a kereső kifejezés játszhatja a maszk szerepét.

2.) A szöveg szintaktikus elemzési gráfjához illeszteni a kereső kifejezés jelentésreprezentációját

A kiválasztott szövegrészt szintaktikusan elemezi az eljárás, majd a kereső kifejezés jelentésreprezentációjának elemeit illeszti; azaz azt ellenőrzi,

  • hogy a megfelelő szavak szinszetjei megegyeznek-e a jelentésreprezentációban szereplőkkel,
  • ezeket a szemantikus reprezentációban lévő relációknak megfelelő vonzat, szabad határozós viszony köti-e össze.

Ezt egy rekurzív algoritmus végezheti, hasonló a következő pontban leírttal.

3.) Az illesztés a szintaktikus elemzéssel párhuzamosan történik

Az algoritmus általános lépésének paramétere a jelentésreprezentáció egy csomópontja. A lépés a következő:

a paraméternek megfelelő szavak/kifejezések megkeresése a szövegben, és minden találatra:
  a paraméterből induló reláció előfordulásokra (élek a gráfban) 
    megkeresni a szövegben a megfelelő szintaktikai viszonyt
    ha van, 
      a reláció előfordulás értékével összehasonlítani a megfelelő szót (beleesik-e a megfelelő szinszetbe)
      ha beleesik, a jelentésreprezentáció megfelelő csomópontjára behívni az algoritmust

Természetesen a jelentésreprezentáció fejével indul az eljárás.

A fenti leírás elnagyolt, sok részletkérdést kell tisztázni még (pl. a negáció).


Mind a három módszer helyes, gyakorlati szempontok döntenek alkalmazásukról. A harmadik előnye, hogy nemcsak igénypontokra alkalmazható, hanem tetszőleges szövegre.


Szemantikus lexikon specifikációja

Szemantikus lexikon alatt értjük azt a "tudástárat", amely mind a lexikális, mind a világtudást tartalmazza. Egyelőre mint egy egységről beszélünk róla; első elképzelésünk szerint egy WordNet átdolgozott változata. E mellett szól az, hogy a WordNet-ben jelentős mennyiségű lexikális anyag gyűlt össze, amelyet nem szabad figyelmen kívül hagyni. Ugyanakkor azonban problémánk, hogy míg a WordNet a mindennapi beszélő/író szempontjai szerint készült, nekünk a kereséshez különbözők az igényeink.A továbbiakban a követelményekkel párhuzamosan részletezzük ezeket az eltéréseket. Általában a WordNet követelményei egy reláció fennállására sokkal szigorúbbak, mint a kereséshez szükségesek - így a WordNet változatlan használata jelentősen szűkítené a találatok számát.

Követelmények

Az egyszerűség kedvéért "szavakról" beszélünk, de ide értjük a kollokációkat, esetleges prepozíciós kifejezéseket is. Szó alatt egyértelműsített szót értünk.

A lexikonnak tartalmaznia kell a szavakra vonatkozó nyelvtani információkat (szófaj, vonzatkeret), valamint jelentésükre vonatkozó információkat. A nyelvtani információkból probléma az igék, illetve egyes főnevek vonzatkeretének ábrázolása, ezt utólag kell bevinni.

A szavak jelentésére vonatkozó információkhoz az alábbi relációkra van szükség (zárójelben a megfelelő WordNet kifejezés):

  • szinonimitás - szinonim szavak halmazát (synset) - azonosíthatjuk a szavak által jelentett fogalommal. A további relációk már nem a szavak közt, hanem a szinszetek közt állnak fenn.
    • probléma: a kereséshez egy sokkal lazább szinonima értelmezés adekvát
    • probléma: az igék és a perdurant jelentésű főnevek hasonló jelentésűek (számunkra szinonimák) lehetnek eltérő vonzatkerettel, pl. ad vs. kap
    • probléma: az igéket, és azok jelentését kifejező főneveket (perdurant jelentésűeket) össze kell kötni valamilyen szinonima jellegű relációval
  • alá-fölé rendelés, azaz a "fajtája/neme" (hiponima/hipernima) reláció.
    • probléma lehet, hogy a kereséshez másképp értelmezzük
  • antonima reláció, ez az ellentmondások észleléséhez szükséges; a WordNet-ben a főnevekre és (főleg) a melléknevekre jól kidolgozott, de
    • probléma az igékkel lesz, pl. ha az ad és kap antonimának van felvéve
  • mereológiai reláció, tehát a "része" reláció
  • attribútumok reprezentálása. Attribútum alatt azt értem, hogy valaminek valamilyen tulajdonságához egy skálázott értéktartományból érték rendelhető. A WordNetben a descriptive melléknevek a kvalitatív skálákhoz jók,
    • a kvantitatív skálákkal ki kell majd egészíteni.
  • egyéb relációk, amelyek már erősen a világtudást tükrözik (pl. okság, funkció, szükséges feltétel stb.) - a pontos működéshez minél több kellene
    • probléma: igazából azt sem tudjuk, mikre van szükségünk, lehet, hogy ezeket (vagy többet belőlük) össze lehet fogni egy "implikációs jellegű" relációba. Ez csak annyit fejezne ki, hogy ha az "A" kulcsszó, és a B-A reláció áll, B is érdekes.
    • probléma: vagy meg kellene találni azokat a WordNeteket, vagy más eszközöket, amelyeket használjuk, vagy be kell vinni az általunk használt "hiányos" változatba


A kereső motor különböző területre specializálódott változataihoz a terület szakszavaiból külön állomány kell. Probléma, hogy ezeket hogy szerezzük be.

Szerkezet

Vonzatkeretek reprezentálása

Igéknél két fajta vonzatot különböztetünk meg: azokat, amelyeket sorrendi megkötés jelöl (tranzitív és kettős tranzitív igék) ill. a prepozícióval jelölt. A tranzitív igéket elég jelölni. A prepozíciós vonzatokhoz fel kell venni a prepozíciókat mint önálló literálokat, és definiálni a vonzatot jelző relációt (literálok közt).

A prepozíciókat is egymáshoz lehet rendelni laza klaszterekbe, mivel van saját jelentésük, amikor szabad határozókat alkotnak a névszókból; pl. az in, at, from stb. tér(idő)beli reláció.

A vonzattal rendelkező névszók külön csoportja az, amely valamely igéhez rendelve (belőle képzett, azonos alakú) azt a perdurantot jelenti, amelyet az ige. Ezek prepozíciós vonzatai sokszor öröklődnek, ekkor nem kell külön jelezni; ha nem, ugyanúgy járunk el, mint az igéknél. Ha a szövegben jelezzük tárgyát, vagy alanyát, szabályok szerinti prepozíciók jelölik ezeket. Ha a szabály nem egyértelmű, jelezni kell a lexikonban, hogy melyik szabály érvényesül.

A fenti szerkezetet a következő ábra illusztrálja.

Személyes eszközök
Névterek

Változatok
Műveletek
Navigáció
Eszközök