Na této stránce máte možnost získat podklady k přednášce Martina Holuba a Jiřího Diviše (MFF UK, Praha) ze dne 19.2.2004:
Obsahem referátu budou postupy (konkrétní algoritmy a metody), které
byly navrženy pro automatické odhalení a explicitaci virtuálních
konceptů na základě analýzy rozsáhlé textové kolekce. Účelem celého
procesu je využití virtuálních konceptů při konceptově orientované
indexaci dokumentů. Prezentovány budou též zkušenosti s implementací
(některých navrhovaných algoritmů) a plánovaná metoda evaluace, která
má experimentálně ověřit přínos konceptově orientovaného modelu
reprezentace obsahu dokumentu.
V naší terminologii koncept je výraz, vyjadřující nějaké téma čili to,
"o čem dokument je nebo může být". Vztah konkretního konceptu a
konkrétního dokumentu vyjadřujeme mírou jejich incidence. Nulová
incidence znamená, že dokument "o tomto tématu není", kladná znamená,
že "v nějaké míře o tom je". Pokud je koncept totožný s lexikální
jednotkou přirozeného jazyka, mluvíme o lexikálním konceptu. Některá
(s hlediska indexace významná) témata však nelze vyjádřit jedním
slovem, a jim odpovídající koncepty nazýváme virtuální koncepty
(protože nejsou součástí lexikální báze přirozeného jazyka). Virtuální
koncepty se pokoušíme konstruovat jako vektorové dotazy a míru
incidence konceptu a dokumentu tudíž pak lze počítat jako podobnost
dotazu a dokumentu, s využitím výhodných vlastností klasické vektorové
technologie.
19.03.2004