Na této stránce máte možnost získat podklady k přednášce M. Holuba a R. Base:
Teorie a praxe latentně sémantické indexace (LSI) textových
dokumentů
ABSTRAKT:
Latentně sémantická indexace textových dokumentů je metoda
vyvinutá začátkem 90. let a má pomoci potlačit nežádoucí důsledky
synonymie v přirozeném jazyce. Je založena algebraicky, na SVD-rozkladu
(singular value decomposition) matice representující četnosti výskytů
termů v dokumentech. Získame-li SVD-rozklad, můžeme tuto matici
aproximovat drastickým snížením její dimenze. To přináši dva užitečné
důsledky, za prvé zefektivnění výpočtu podobnosti dotazu a dokumentu, a
za druhé nalezení některých dokumentů, které jsou relevantní, přestože
neobsahují termy použité v dotazu.
Obsah:
- Část první - Martin Holub: Úvod do teorie latentně sémantické
indexace
- 1. Motivace a historie LSI
- 2. Princip LSI a její aplikace
- 3. Metody urychlující výpočet
- 4. LSI a podobné postupy
- Část druhá - Radan Base: Poznatky o praktickém využití latentně
sémantické indexace
- 1. Výsledky experimentů publikované v odborné literatuře
- Charakteristika testovacích kolekcí a uspěšnosti vyhledávání pomocí LSI
- 2. Zkušenosti s latentně sémantickou indexací českých textů
- Použití balíčku SVDPACK při implementaci LSI
- Prototypová implementace vyhledávače s www rozhraním
Vytvořeno 1.2.2002
Poslední změny 1.2.2002
michal.kratky@vsb.cz