1. diel - Data Mining - Úvod do problematiky
Vitajte v kurze Data Miningu. V jeho rámci sa naučíme rozumieť vyťažovaniu informácií z rôznych databáz. Zameriame sa najskôr na nutnú teóriu a tú následne využijeme v praktickom projekte, ktorý v rámci kurzu spracujeme. Dozvieme sa, ako sa Data Mining v praxi využíva a aké sú možnosti, ktoré nám poskytuje v rôznych odboroch.
Predpoklady pre zvládnutie kurzu
Pre úspešné absolvovanie kurzu je vhodná znalosť databáz (relačný model). Nutná je tiež znalosť niektorého programovacieho jazyka, napr. Pythonu. Výhodou bude aj aspoň základná znalosť štatistiky a algoritmov strojového učenia.
Čo je Data Mining
Data Mining, po slovensky povedané dolovanie či vyťažovanie dát, je proces získavania užitočných informácií z veľkého množstva dát alebo dátových skladov. Rovnako ho chápeme ako analytickú súčasť dobývania znalostí z databáz (knowledge discovery in databases, ďalej len KDD). Tieto dve označenia sú všeobecne vnímané ako súznačné.
KDD definujeme ako netriviálnu extrakciu implicitných (priamo nevyjadrených) predtým neznámych a potenciálne užitočných informácií z dát. Často dochádza k prekryvu či zámene s termínom dátumu science (dátová veda), ktorý svojím rozsahom zahŕňa širšiu oblasť problematiky. Data mining či KDD sú iba podmnožinou dáta science.
Stručná história Data Miningu
O Data Miningu sa ako o KDD začalo hovoriť vo vedeckých kruhoch začiatkom 90. rokov v USA. Databázové technológie predstavovali prostriedok, ako uchovávať rozsiahle dáta a vyhľadávať v nich informácie. Štatistika potom predstavovala prostriedok, ako modelovať a analyzovať závislosti v dátach. Tieto disciplíny sa vyvíjali nezávisle až do doby, keď sa rozsah automaticky zbieraných dát natoľko zväčšil, že začínal používateľom „prerastať cez hlavu“. Súčasne s tým tiež vznikla potreba (a možnosť) veľké dáta využívať na strategické riadenie firiem.
Proces KDD
Zo štatistického uhla pohľadu na Data Mining hovoríme o hľadaní korelácií, vzájomných vzťahov alebo vzorov, stanovení trendov, popr. predpovede budúceho vývoja. Na rozdiel od "prostého" použitia štatistických metód a metód strojového učenia sa v procese KDD kladie dôraz na prípravu dát pre analýzu a na interpretáciu výsledných znalostí. Pri príprave sa obvykle z dát uložených v zložitej štruktúre napr. dátového skladu vytvára jedna tabuľka, ktorá obsahuje relevantné hodnoty atribútov sledovaných objektov. Pri interpretácii sa potom nájdené znalosti hodnotia z pohľadu koncového užívateľa.
Pozrime sa teraz grafické znázornenie celého procesu KDD z technického uhla pohľadu tvoreného krokmi: selekcia, predspracovanie, transformácia, data mining a interpretácia:
Uvedomme si, že v prípade Data Miningu nie sú výsledkom procesu dátumu, ale konkrétne znalosti pre riešenie špecifikovaného reálneho problému.
Špecifikácia reálneho problému pre Data Mining
Impulzom na začatie procesu KDD je vždy reálny problém. V praxi sa bežne stanovuje riešiteľský tím, ktorého členmi sú ako experti na dáta a na metódy KDD, tak aj experti na riešenú problematiku. Po špecifikácii a formulácii reálneho problému je potrebné získať všetky dostupné dáta, ktoré môžu byť použité pre jeho riešenie, a ďalej posúdiť ich relevanciu. Tento proces môže zapríčiniť aj spätné preformulovanie samotného problému.
Pozrime sa na grafické znázornenie KDD z manažérskeho uhla pohľadu, tvoreného krokmi: stanovenie riešiteľského tímu, špecifikácia problému, získanie dát, výber metód, predspracovanie dát, data mining a interpretácia.
Metódy analýzy dát
V rámci dobývania znalostí z databáz je používaný rad typov metód analýzy dát. Vo väčšine prípadov je na riešenie konkrétnej úlohy potrebné kombinovať viac rôznych metód. Medzi používané typy metód patria napr. klasifikačné metódy, rôzne klasické metódy exploračnej analýzy dát, metódy na získavanie asociačných pravidiel, genetické algoritmy, rozhodovacie stromy, Bayesovské siete, neurónové siete, hrubé množiny (rough sets) a metódy vizualizácie. Môžeme smelo predpokladať, že v budúcnosti dôjde k vývoju ďalších metód:-)
Príkladom reálneho problému je napríklad otázka nájdenia skupín zákazníkov internetového obchodu, ktorým by bolo možné ponúknuť špeciálnu službu. U zákazníkov internetového obchodu môže ísť napríklad o zistenie, či kupujú tovar zodpovedajúci určitej forme životného štýlu. Nájdené skupiny sú potom interpretované ako takzvané segmenty trhu. Výsledok procesu môže mať podobu analytickej správy, zapnutie monitorovacieho programu, začatie marketingovej kampane, atď.
Business inteligencia
Záverom sa ešte zoznámime s termínom business intelligence, čo sú zručnosti, znalosti, technológie, aplikácie a postupy používané v podnikaní pre strategické rozhodnutia. K tomu je využívaný zber, analýza a interpretácia vnútrofiremných dát. Data Mining sa od business intelligence líši v tom, že nejde znalosti či schopnosti per sa, ale o proces vedúci k získaniu obchodných poznatkov na vyriešenie problémov v podnikaní.
Oblasti použitia Data Miningu
Data Mining je využívaný vo vedeckej, komerčnej i verejnej sfére. Nárast aplikácií v oblasti Data Miningu zapríčinil vývoj rôznych druhov špecializovaného softvéru. Data Mining je možné aplikovať na akýkoľvek typ dát. Či už sú to dátové sklady, transakčné databázy, relačné databázy, multimediálne databázy, priestorové databázy, databázy časových radov, World Wide Web... Vedúcimi trhu sú komerčné aplikácie SAS Enterprise Miner, SPSS Clementine a STATISTICA Data Miner.
Na záver si pre konkrétnu predstavu uvedieme typické príklady využitia dát (aplikačnej oblasti) pre konkrétne subjekty. Sú to napríklad údaje o:
- klientoch, transakciách pre bankové subjekty (napr. rozpoznanie problémových alebo naopak vysoko bonitných klientov),
- klientoch, volaniach, správach SMS/MMS pre telefónnych operátorov (napr. analýza dôvodov zmeny poskytovateľa nejakých služieb),
- nákupoch v kamenných predajniach a na e-shopoch (napr. automatické ponúkanie produktov, ktoré sa často kupujú spoločne s inými),
- pohyboch užívateľov na internete pre políciu (napr. kampaň prevencie kriminality) a pre súkromné spoločnosti (napr. marketingové kampane),
- expresiu génov pre vedeckú sféru,
- prevádzkach a prevádzkových parametroch pre priemyselné spoločnosti (napr. analýza príčin porúch automobilov),
- vývoji akcií pre investičné spoločnosti (napr. predikcia vývoja kurzov akcií).
V budúcej lekcii, Základné pojmy Data Miningu , sa zoznámime so základnými pojmami procesu Data mining.