3. diel - Metodológie Data Mining procesu a používané techniky
V minulej lekcii, Základné pojmy Data Miningu , sme si sa zoznámili so základnými pojmami procesu Data mining.
V tomto tutoriále Data Miningu si popíšeme existujúce metodiky Data Mining procesu, konkrétne 5A, SEMMA a CRISP-DM. Ďalej si upresníme používané techniky.
Metodológia Data Mining procesu
Pre Data Mining sú všeobecné metodiky dostupné už od 90. rokov. Niektoré metodiky spracovali producenti programových systémov (5A, SEMMA). Okrem týchto máme aj metodiky softwarovo nezávislé, ktoré vznikli v spolupráci s výskumnými inštitúciami (CRISP-DM).
Metodika 5A
Skratku 5A tvorí päť počiatočných písmen piatich kľúčových krokov metodiky:
- A ssess - posúdenie potrieb projektu,
- A ccess - zhromaždenie potrebných dát,
- A nalyze - prevedenie analýz,
- A kt - premena znalostí na akčné znalosti,
- A utomate - prevedenie výsledkov analýzy do praxe.
Podobne vznikol aj akronym SEMMA:
- S ample - vyberie vhodné objekty,
- E xplore - vizuálna explorácia a redukcia dát,
- M odify - zoskupovanie objektov a hodnôt atribútov, dátovej transformácie,
- M odel - analýza dát, modeling,
- A ssess – porovnanie modelov a interpretácie.
Metodika CR oss- I ndustry S tandard P rokuss for Data Mining - CRISP-DM vznikla v rámci Európskeho výskumného projektu s cieľom navrhnutia univerzálneho modelu procesu dobývania znalostí z databáz. Skladá sa zo šiestich krokov, ktoré si teraz popíšeme detailnejšie.
1. Business understanding
Business understanding je úvodnou fázou, v ktorej ide nielen o porozumenie problematiky, ale aj o správnu formuláciu úlohy z manažérskeho hľadiska. Rozlišujú sa rôzne typy úloh. Fáza ďalej zahŕňa inventúru zdrojov, hodnotenie rizík, náklady vs. prínosy a stanovenie predbežného plánu prác.
Typy úloh
Pozrime sa teraz na základné typy úloh:
- Klasifikácia/predikcia - Cieľom tejto úlohy je
nájdenie znalostí použiteľných pre klasifikáciu nových prípadov. Dáva
sa prednosť presnosti pokrytia na úkor jednoduchosti (pripúšťa sa teda
väčšie množstvo menej zrozumiteľných čiastkových znalostí
Zi
- viď obrázok nižšie). Pri predikcii je dôležitý čas – zo starších hodnôt veličiny sa odhaduje vývoj hodnôt v budúcnosti. Inými slovami chceme na trénovacej množine dát predpovedať ďalšie neznáme objekty (napr. vývoj cien akcií). - Deskripcia (popis) - Pri tejto úlohe je zisťovaná
dominantná štruktúra alebo väzba, ktorá je skrytá v dátach. Na výstupe
sú požadované zrozumiteľné znalosti
Zi
, pokrývajúce daný koncept (uprednostňuje sa menšie množstvo menej presných znalostíZi
). Inými slovami chceme získať povedomie o dátach ako celku (napr. analýza nákupného košíka zákazníka). - Hľadanie nugetov - Tu sú na výstupe požadované nové,
prekvapivé či zaujímavé znalosti
Zi
, ktoré nemusia plne pokrývať daný koncept. Inak povedané chceme zistiť zaujímavé odchýlky od normálnych hodnôt (napr. identifikácia podvodného konania).
Pripomeňme si, že všetky úlohy je možné nájsť v celom rade aplikačných oblastí, napríklad pri:
- identifikáciu chýb,
- predikciu spotreby elektrickej energie,
- analýze príčin porúch v telekomunikačných sieťach,
- analýze dôvodov zmeny poskytovateľa služieb,
- segmentáciu a klasifikáciu klientov poisťovne,
- určenie príčin porúch automobilov,
- rozboru databázy pacientov v nemocnici,
- potvrdenie či vyvrátenie štatistických hypotéz.
Fáza Data understanding začína prvotným zberom dát a pokračuje činnosťami, ktoré nám o nich umožnia získať základnú predstavu. Veľmi kľúčové je posúdenie ich kvality. Ďalej sa stanovujú rôzne deskriptívne charakteristiky (opisná štatistika, ako napr. početnosti hodnôt rôznych atribútov, priemerné hodnoty, minimá, maximá...). K základnému pochopeniu dát nám pomáhajú aj vizualizácie, ktoré bývajú využívané v rámci iných procesov obvykle až na konečné výstupy.
3. Data preparation
Fáza Data preparation zahŕňa všetky úkony vedúce k vytvoreniu dátového súboru, ktorý následne spracujeme jednotlivými analytickými metódami (resp. Data Mining technikami). Príprava dát zahŕňa selekciu, čistenie, transformáciu, vytváranie, integrovanie a formátovanie dát. Celá príprava dát býva často najpracnejšou časťou celého procesu.
4. Modeling
Vo fáze Modeling dochádza k samotnému dobývaniu znalostí pomocou analytických metód (resp. Data Mining techník) a tvorí sa matematický model. K dispozícii máme množstvo metód/techník na riešenie danej úlohy, čiže veľká pozornosť musí smerovať výberu tej najvhodnejšej. Všeobecne sa odporúča použitie viacerých metód/techník. V priebehu procesu môže vzniknúť potreba modifikovať dáta, čo znamená návrat k dátovým transformáciám z fázy Data Preparation. Súčasťou Modelingu môže ďalej byť aj testovanie získaných znalostí na nezávislých dátach.
5. Evaluation
Vo fáze Evaluation je proces v stave, kedy sú k dispozícii znalosti, ktoré je ešte potrebné vyhodnotiť z manažérskeho pohľadu (boli skutočne dosiahnuté ciele danej úlohy?). Záverom fázy je potom rozhodnutie o spôsobe využitia výsledkov.
6. Deployment
V Deployment fáze (konečnej fáze) sa už uvádza poznatky do praxe na základe rozhodnutia o spôsobe využitia výsledkov (napr. cielená reklamná kampaň). Vo väčšine prípadov je to zákazník (manažér, zadávateľ), kto robí kroky vedúce k využívaniu výsledkov, preto je dôležité správne pochopenie záveru.
Pozrime sa na celý procesný model CRISP_DM:
"
Okrem metodiky CRISP-DM môžeme ešte na záver uviesť kontrolný krok, zaisťujúci spätnú väzbu na Deployment (napr. ako efektívna bola cielená reklamná kampaň?) a prípadnú aktualizáciu matematického modelu v čase.
Techniky Data Miningu
Ako sme si vyššie popísali, samotné použitie Data Mining techník prichádza na rad v analytickom kroku č. 3, avšak jednou z najdôležitejších úloh je samotný výber správnej analytickej metódy/techniky, čo nasleduje hneď za obchodným krokom č. 1. Existuje rad Data Mining techník :
1. Štatistika:
- kontingenčná tabuľka,
- regresná analýza,
- zhluková analýza,
- diskriminačná analýza,
- analýza rozptylu,
- faktorová analýza,
- bayesovská štatistika.
- štatistické metódy - pozri bod 1),
- symbolické metódy umelej inteligencie:
- rozhodovacie stromy,
- princípy prípadového posudzovania (Case-Based Reasoning, CBR).
- subsymbolické metódy umelej inteligencie:
- neurónové siete,
- bayesovské siete,
- genetické algoritmy.
V nasledujúcom kvíze, Kvíz - Teória Data Miningu, si vyskúšame nadobudnuté skúsenosti z predchádzajúcich lekcií.