Panelová diskuse

Dobývání znalostí z databází - teorie versus praxe


Panelisté:

Doc. Ing. Petr Berka, CSc.Laboratoř inteligentních systémů, VŠE Praha
Michal DostálConsultant, SAS Institute ČR, s.r.o.
Prof. RNDr. Petr HájekDrSc. Ústav informatiky AV ČR
Mgr. Ondřej HávaSenior consultant, SPSS CR, spol. s r.o.
Ing. David PavlisKatedra informačního a znalostního inženýrství VŠE
Ing. Filip ŽeleznýFEL ČVUT

Moderátor:

Doc. RNDr. Jan Rauch, CSc.VŠE Praha


Dobývání znalostí z databází (DZD) chápeme jako analýzu (často rozsáhlých) observačních dat s cílem nalézt neočekávané vztahy a sumarizovat data novými způsoby tak, že jsou srozumitelná a užitečná pro jejich vlastníka. Tato definice je převzata z knihy David Hand, Heikki Manilla, Padhraic Smyth: Principles of Data Mining (MIT 2001), kde je uvedena v souvislosti s pojmem data mining. Dobývání znalostí z databází je proces, který dle metodologie CRISP-DM (viz http://www.crisp-dm.org) zahrnuje šest hlavních etap vzájemně souvisejících způsobem naznačeným v tomto schématu (jsou uvedeny originální anglické termíny):

Jsou k dispozici rozsáhlé teoretické výsledky týkající se datových struktur uchovávaných v databázích. Tyto výsledky jsou využívány při projektování i provozování databází a jsou relevantní zejména k etapám v uvedeném schématu nazývaným Data Understanding a Data Preparation. Etapa nazývaná Modelling zahrnuje aplikace různých analytických procedur, také k ní se vztahuje řada teoretických výsledků. Méně teoretických výsledků je k dispozici pro ostatní etapy.

Cílem této diskuse je přispět k vyjasnění vzájemného vztahu teorie a praxe v oblasti DZD. V rámci diskuse budeme hledat odpovědi na otázky:

K inspiraci pro diskusi lze využít i následující poznámky shromážděné při různých příležitostech bez nároků na systematičnost nebo úplnost. Výraz data mining je zde synonymem pro výraz modelling použitý výše.

Inspirací pro diskusi může být i následující citát z knihy Keitha Devlina: Jazyk matematiky (nakladatelství Argo a Dokořán, Praha 2002), která je překladem z anglického originálu The Language of Mathematics:

"V posledních asi třiceti letech byla zformulována definice matematiky, se kterou většina dnešních matematiků souhlasí: matematika je vědou o strukturách. Matematik zkoumá abstraktní numerické struktury, struktury tvarů, zákony pohybu, principy chování a rozhodování, podstatu pravděpodobnosti atd. Všechny struktury mohou být skutečné nebo uměle sestavené, zjevné nebo skryté, statické nebo dynamické, kvalitativní nebo kvantitativní, ryze účelové nebo vymyšlené jen tak pro zábavu. Jejich podstata vychází ze světa, který nás obklopuje, z hlubin prostoru a času i z labyrintu lidské mysli."