Metody analýzy textových dat

Kombinované studium

Anotace předmětu

Tutoriály

Podmínky udělení zápočtu

Učební materiály

Ostatní materiály

Anotace předmětu

Cílem předmětu je seznámit studenty se základními i pokročilými technikami analýzy textových dat. Po absolvování předmětu bude student schopen: popsat jednotlivé metody analýzy textových dat, porozumět těmto metodám, implementovat tyto metody, případně využít existující knihovny, začlenit tyto metody do vlastního návrhu analýzy konkrétních dat.

Garant a tutor předmětu

doc. Mgr. Jiří Dvorský, Ph.D.


Tutoriály

Rozpis tutoriálů

Tutoriál Termín Náplň
I 1. března 2024 Na tomto úvodním tutoriálu Vám budou sděleny informace o organizaci studia předmětu a informace o náplni předmětu. Úvod do problematiky informačních systémů. Historie a vývoj vyhledávání v textech. Rozdíly mezi faktografickými a dokumentografickými IS (DIS). Obecný model DIS.
II 15. března 2024 Algoritmy pro přesné vyhledávání v textech. Algoritmy vyhledávání jednoho vzorku. Algoritmy vyhledávání více vzorků (algoritmus Aho-Corasickové). Vyhledávání regulárních výrazů konečnými automaty. Algoritmy pro přibližné vyhledávání v textech. Sufixové stromy. DAWG. Patricia a podobné datové struktury.
III 5. dubna 2024 Primární zpracování textů. Lexikální analýza. Stemming. Lematizace. Stop slova. Konstrukce indexových systémů. Zipfův zákon a odhad velikosti indexového systému. Indexování založené na třídění. Poziční indexové systémy. Metody vážení termů. TF-IDF váhy termů. Dotazovací jazyky. Relevance dokumentu. Míra podobnosti dvojice dokument-dotaz. Relevance vs. podobnost. Struktura a vyhodnocení dotazu. Booleovský DIS. Hodnocení DIS (přesnost, úplnost, F-míra). Signaturové metody. Řetězené a vrstvené kódování signatur. Efektivní vyhodnocení dotazů.
IV 19. dubna 2024 Metody komprese textu. Metody komprese indexových systémů. Metody kódování přirozených čísel.
V 3. května 2024 Latentní sémantika. Metody redukce dimenze. Metody založené na rozkladu matic. Náhodná projekce. Vektorové DIS. Konstrukce a vyhodnocení vektorových dotazů. Ostatní typy DIS (rozšířené Booleovské). Indexování, struktura dotazů, vyhodnocení dotazů. Konzultace k projektům. Vyhledávání na webu. Analýza hypertextových dokumentů, strukturální metody. PageRank a HITS.

Podmínky udělení zápočtu

Témata rešerší

Následující témata rešerší jsou orientační, lze si zvolit i téma vlastní.

  1. Indexování a vyhledávání v matematických textech
  2. Indexování a vyhledávání ve zdrojových kódech programů
  3. Metody komprese indexových struktur
  4. Metody komprese grafů
  5. Metody komprese textových dokumentů
  6. Využití soft computingu (např. genetické algoritmy) ve zpracování textu
  7. Paralelní algoritmy pro zpracování dokumentů
  8. Využití speciálního hardware (CUDA apod.) pro zpracování dokumentů
  9. Open source knihovny pro indexování a vyhledávání dokumentů
  10. Metody a knihovny pro redukci dimenze (SVD, NMF atd.)
  11. Vektorový model a zpracování dokumentů
  12. Metody sumarizace textu
  13. Modern lossless compression methods, see Proceedings of Data Compression Conference (DCC), https://dblp.org/db/conf/dcc/index.html
  14. Compression methods based on context-free grammar, see https://en.wikipedia.org/wiki/Grammar-based_code

Témata implementačních projektů

  1. Témata pro implementační projekt nutno konzultovat s tutorem.
  2. Je možno využít i téma projektu zpracovávaného do jiného předmětu, pokud se bude toto téma týkat i předmětu MATD.

Učební materiály

Základní literatura

  1. Kopecký M., Pokorný J.: Dokumentografické informační systémy, Karolinum 2006, ISBN 8024611481
  2. Manning, C. D.; Raghavan, P., Schutze, H.: Introduction to Information Retrieval, Cambridge University Press, 2008.

Doplňková literatura

  1. Witten I. H., Moffat A., Bell T. C.: Managing Gigabytes (2nd ed.): Compressing and Indexing Documents and Images, Morgan Kaufmann Publishers Inc., 1999, ISBN 1-55860-570-3
  2. Baeza-Yates R. A., Ribeiro-Neto B.: Modern Information Retrieval, Addison-Wesley Longman Publishing Co., Inc., 1999, ISBN 020139829X
  3. Feldman R., Sanger J.: The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data, Cambridge University Press, 2006, ISBN 978-0521836579
  4. Berry M. W., Kogan J.: Text Mining: Applications and Theory, Wiley, 2010, ISBN 978-0470749821
  5. Weiss S. M., Indurkhya N., Zhang T.: Fundamentals of Predictive Text Mining, Springer, 2010, ISBN 978-1849962254
  6. Langville, A. N., Meyer, C. D. Google's PageRank and Beyond: The Science of Search Engine Rankings Princeton University Press, 2006
  7. Korfhage, R. R. Information Storage and Retrieval, John Wiley & Sons, 1997

Ostatní materiály