Seminář na téma DIS: <h1>Teorie a praxe latentně sémantické indexace (LSI) textových dokumentů

Na této stránce máte možnost získat podklady k přednášce M. Holuba a R. Base:

Teorie a praxe latentně sémantické indexace (LSI) textových dokumentů

ABSTRAKT:

Latentně sémantická indexace textových dokumentů je metoda vyvinutá začátkem 90. let a má pomoci potlačit nežádoucí důsledky synonymie v přirozeném jazyce. Je založena algebraicky, na SVD-rozkladu (singular value decomposition) matice representující četnosti výskytů termů v dokumentech. Získame-li SVD-rozklad, můžeme tuto matici aproximovat drastickým snížením její dimenze. To přináši dva užitečné důsledky, za prvé zefektivnění výpočtu podobnosti dotazu a dokumentu, a za druhé nalezení některých dokumentů, které jsou relevantní, přestože neobsahují termy použité v dotazu.

Obsah:

Část první - Martin Holub: Úvod do teorie latentně sémantické indexace

1. Motivace a historie LSI
2. Princip LSI a její aplikace
3. Metody urychlující výpočet
4. LSI a podobné postupy

Část druhá - Radan Base: Poznatky o praktickém využití latentně sémantické indexace

1. Výsledky experimentů publikované v odborné literatuře
- Charakteristika testovacích kolekcí a uspěšnosti vyhledávání pomocí LSI
2. Zkušenosti s latentně sémantickou indexací českých textů
- Použití balíčku SVDPACK při implementaci LSI
- Prototypová implementace vyhledávače s www rozhraním

Vytvořeno 1.2.2002
Poslední změny 1.2.2002
michal.kratky@vsb.cz