Anglická verze English version

Metody analýzy dat I (MADI)

 

Podzim 2022        počet kreditů 4        rozsah 2+2        semestr zimní    


Anotace:

Předmět poskytuje základní informaci z oblasti metod využívaných pro dolování dat a analýzu sítí. Studenti získají znalosti a dovednosti nezbytné pro další rozvoj v této oblasti a schopnost je aplikovat na jednoduché úlohy. Dále budou studenti schopni posoudit použitelnost metod pro různé typy a rozsah dat a zhodnotit výstupy z aplikace použitých metod. V předmětu se studenti seznámí se základními přístupy, metodami a algoritmy z oblasti dolování dat a analýzy sítí. Přednášky poskytnou nezbytné množství teorie tak, aby mohla být aplikována při samostatné práci studentů na cvičeních. Cvičení nabídnou prostor pro prodiskutování problematiky, ukázku praktických úloh a procvičení na jednoduchých zadáních.


Požadavky (rozdělení bodů):


Podklady a zadání


Literatura a internetové zdroje:

  • Literatura    
  •     Ian H. Witten, Eibe Frank , Mark A. Hall. Data Mining: Practical Machine Learning Tools and Techniques (Third Edition). The Morgan Kaufmann Series in Data Management Systems, 2011. ISBN 978-0123748560.
  •     Zaki, M. J., Meira Jr, W. (2014). Data Mining and Analysis: Fundamental Concepts and Algorithms. Cambridge University Press, ZAKI dmafca.pdf .
  •     Bramer, M. (2013). Principles of data mining. Springer.
  •     Albert-László Barabási. Network Science
  •     Mark Newman. Networks: An Introduction. Oxford University Press, 2010. ISBN 978-0199206650.
  •     M. Litschmannová. Úvod do statistiky
  • Nástroje pro analýzu a vizualizaci sítí
  •     Pajek - Program for Large Network Analysis, Pajek
  •     NodeXL - Tempalte for Excel, NodeXL
  •     SNAP - Stanford Network Analysis Project, SNAP
  •     Gephi , Graphviz a mnoho dalších
  •     Visual Complexity
  •     D3.js - JavaScript library for manipulating documents based on data, D3.js

 


Osnova:

Přednášky:
1. Data pro dolování dat, typy a zdroje dat
2. Atributy a jejich typy, řídká data, neúplná a nepřesná data
3. Algebraický a geometrický pohled na data
4. Pravděpodobnostní pohled na data
5. Numerické a kategoriální atributy, základní analytické přístupy
6. Dolování dat, předzpracování a čištění dat
7. Reprezentace dat
8. Základní metody analýzy dat (klasifikace, shlukování)
9. Sítě a jejich vlastnosti
10. Typy sítí a jejich reprezentace
11. Metody měření důležitost vrcholů v sítích
12. Struktura a globální vlastnosti rozsáhlých sítí
13. Základní datové struktury pro reprezentaci sítí
14. Základní algoritmy pro analýzu sítí
Cvičení:
Cílem cvičení je demonstrace jednotlivých algoritmů, problémů, vlastností a metod na konkrétních příkladech.
1. Diskuze a praktické ukázky: Data pro dolování dat, typy a zdroje dat.
2. Diskuze a praktické ukázky: Atributy a jejich typy, řídká data, neúplná a nepřesná data.
3. Diskuze a praktické ukázky: Algebraický a geometrický pohled na data
4. Diskuze a praktické ukázky: Pravděpodobnostní pohled na data
5. Praktické ukázky a procvičení: Numerické a kategoriální atributy, základní analytické přístupy.
6. Praktické ukázky a procvičení: Dolování dat, předzpracování a čištění dat
7. Procvičení: Reprezentace dat
8. Praktické ukázky a procvičení: Základní metody analýzy dat (klasifikace, shlukování)
9. Diskuze a praktické ukázky: Sítě a jejich vlastnosti
10. Diskuze a praktické ukázky: Typy sítí a jejich reprezentace
11. Procvičení: Metody měření důležitost vrcholů v sítích
12. Diskuze a praktické ukázky: Struktura a globální vlastnosti rozsáhlých sítí
13. Procvičení: Základní datové struktury pro reprezentaci sítí
14. Procvičení: Základní algoritmy pro analýzu sítí