Seminář na téma DIS: Konceptově orientované vyhledávání v textech a lexikální disambiguace

Na této stránce máte možnost získat podklady k přednášce Martina Holuba a Jiřího Diviše (MFF UK, Praha) ze dne 19.2.2004:

Hledání virtuálních konceptů v kolekci textových dokumentů

Anotace přednášky

Obsahem referátu budou postupy (konkrétní algoritmy a metody), které byly navrženy pro automatické odhalení a explicitaci virtuálních konceptů na základě analýzy rozsáhlé textové kolekce. Účelem celého procesu je využití virtuálních konceptů při konceptově orientované indexaci dokumentů. Prezentovány budou též zkušenosti s implementací (některých navrhovaných algoritmů) a plánovaná metoda evaluace, která má experimentálně ověřit přínos konceptově orientovaného modelu reprezentace obsahu dokumentu.
V naší terminologii koncept je výraz, vyjadřující nějaké téma čili to, "o čem dokument je nebo může být". Vztah konkretního konceptu a konkrétního dokumentu vyjadřujeme mírou jejich incidence. Nulová incidence znamená, že dokument "o tomto tématu není", kladná znamená, že "v nějaké míře o tom je". Pokud je koncept totožný s lexikální jednotkou přirozeného jazyka, mluvíme o lexikálním konceptu. Některá (s hlediska indexace významná) témata však nelze vyjádřit jedním slovem, a jim odpovídající koncepty nazýváme virtuální koncepty (protože nejsou součástí lexikální báze přirozeného jazyka). Virtuální koncepty se pokoušíme konstruovat jako vektorové dotazy a míru incidence konceptu a dokumentu tudíž pak lze počítat jako podobnost dotazu a dokumentu, s využitím výhodných vlastností klasické vektorové technologie.

19.03.2004