IT rekvalifikácia. Seniorní programátori zarábajú až 6 000 €/mesiac a rekvalifikácia je prvým krokom. Zisti, ako na to!

3. diel - Metodológie Data Mining procesu a používané techniky

V minulej lekcii, Základné pojmy Data Miningu , sme si sa zoznámili so základnými pojmami procesu Data mining.

V tomto tutoriále Data Miningu si popíšeme existujúce metodiky Data Mining procesu, konkrétne 5A, SEMMA a CRISP-DM. Ďalej si upresníme používané techniky.

Metodológia Data Mining procesu

Pre Data Mining sú všeobecné metodiky dostupné už od 90. rokov. Niektoré metodiky spracovali producenti programových systémov (5A, SEMMA). Okrem týchto máme aj metodiky softwarovo nezávislé, ktoré vznikli v spolupráci s výskumnými inštitúciami (CRISP-DM).

Metodika 5A

Skratku 5A tvorí päť počiatočných písmen piatich kľúčových krokov metodiky:

  • A ssess - posúdenie potrieb projektu,
  • A ccess - zhromaždenie potrebných dát,
  • A nalyze - prevedenie analýz,
  • A kt - premena znalostí na akčné znalosti,
  • A utomate - prevedenie výsledkov analýzy do praxe.
Metodika SEMMA

Podobne vznikol aj akronym SEMMA:

  • S ample - vyberie vhodné objekty,
  • E xplore - vizuálna explorácia a redukcia dát,
  • M odify - zoskupovanie objektov a hodnôt atribútov, dátovej transformácie,
  • M odel - analýza dát, modeling,
  • A ssess – porovnanie modelov a interpretácie.
Metodika CRISP-DM

Metodika CR oss- I ndustry S tandard P rokuss for Data Mining - CRISP-DM vznikla v rámci Európskeho výskumného projektu s cieľom navrhnutia univerzálneho modelu procesu dobývania znalostí z databáz. Skladá sa zo šiestich krokov, ktoré si teraz popíšeme detailnejšie.

1. Business understanding

Business understanding je úvodnou fázou, v ktorej ide nielen o porozumenie problematiky, ale aj o správnu formuláciu úlohy z manažérskeho hľadiska. Rozlišujú sa rôzne typy úloh. Fáza ďalej zahŕňa inventúru zdrojov, hodnotenie rizík, náklady vs. prínosy a stanovenie predbežného plánu prác.

Typy úloh

Pozrime sa teraz na základné typy úloh:

  • Klasifikácia/pre­dikcia - Cieľom tejto úlohy je nájdenie znalostí použiteľných pre klasifikáciu nových prípadov. Dáva sa prednosť presnosti pokrytia na úkor jednoduchosti (pripúšťa sa teda väčšie množstvo menej zrozumiteľných čiastkových znalostí Zi - viď obrázok nižšie). Pri predikcii je dôležitý čas – zo starších hodnôt veličiny sa odhaduje vývoj hodnôt v budúcnosti. Inými slovami chceme na trénovacej množine dát predpovedať ďalšie neznáme objekty (napr. vývoj cien akcií).
  • Deskripcia (popis) - Pri tejto úlohe je zisťovaná dominantná štruktúra alebo väzba, ktorá je skrytá v dátach. Na výstupe sú požadované zrozumiteľné znalosti Zi, pokrývajúce daný koncept (uprednostňuje sa menšie množstvo menej presných znalostí Zi). Inými slovami chceme získať povedomie o dátach ako celku (napr. analýza nákupného košíka zákazníka).
  • Hľadanie nugetov - Tu sú na výstupe požadované nové, prekvapivé či zaujímavé znalosti Zi, ktoré nemusia plne pokrývať daný koncept. Inak povedané chceme zistiť zaujímavé odchýlky od normálnych hodnôt (napr. identifikácia podvodného konania).
Prezrime si grafické zobrazenie vyššie uvedených typov úloh a zamerajme sa na ich odlišné parametre voči danému konceptu:
Typy úloh Data Mining - Data mining v Pythone

Pripomeňme si, že všetky úlohy je možné nájsť v celom rade aplikačných oblastí, napríklad pri:

  • identifikáciu chýb,
  • predikciu spotreby elektrickej energie,
  • analýze príčin porúch v telekomunikačných sieťach,
  • analýze dôvodov zmeny poskytovateľa služieb,
  • segmentáciu a klasifikáciu klientov poisťovne,
  • určenie príčin porúch automobilov,
  • rozboru databázy pacientov v nemocnici,
  • potvrdenie či vyvrátenie štatistických hypotéz.
2. Data understanding

Fáza Data understanding začína prvotným zberom dát a pokračuje činnosťami, ktoré nám o nich umožnia získať základnú predstavu. Veľmi kľúčové je posúdenie ich kvality. Ďalej sa stanovujú rôzne deskriptívne charakteristiky (opisná štatistika, ako napr. početnosti hodnôt rôznych atribútov, priemerné hodnoty, minimá, maximá...). K základnému pochopeniu dát nám pomáhajú aj vizualizácie, ktoré bývajú využívané v rámci iných procesov obvykle až na konečné výstupy.

3. Data preparation

Fáza Data preparation zahŕňa všetky úkony vedúce k vytvoreniu dátového súboru, ktorý následne spracujeme jednotlivými analytickými metódami (resp. Data Mining technikami). Príprava dát zahŕňa selekciu, čistenie, transformáciu, vytváranie, integrovanie a formátovanie dát. Celá príprava dát býva často najpracnejšou časťou celého procesu.

4. Modeling

Vo fáze Modeling dochádza k samotnému dobývaniu znalostí pomocou analytických metód (resp. Data Mining techník) a tvorí sa matematický model. K dispozícii máme množstvo metód/techník na riešenie danej úlohy, čiže veľká pozornosť musí smerovať výberu tej najvhodnejšej. Všeobecne sa odporúča použitie viacerých metód/techník. V priebehu procesu môže vzniknúť potreba modifikovať dáta, čo znamená návrat k dátovým transformáciám z fázy Data Preparation. Súčasťou Modelingu môže ďalej byť aj testovanie získaných znalostí na nezávislých dátach.

5. Evaluation

Vo fáze Evaluation je proces v stave, kedy sú k dispozícii znalosti, ktoré je ešte potrebné vyhodnotiť z manažérskeho pohľadu (boli skutočne dosiahnuté ciele danej úlohy?). Záverom fázy je potom rozhodnutie o spôsobe využitia výsledkov.

6. Deployment

V Deployment fáze (konečnej fáze) sa už uvádza poznatky do praxe na základe rozhodnutia o spôsobe využitia výsledkov (napr. cielená reklamná kampaň). Vo väčšine prípadov je to zákazník (manažér, zadávateľ), kto robí kroky vedúce k využívaniu výsledkov, preto je dôležité správne pochopenie záveru.

Pozrime sa na celý procesný model CRISP_DM:

" CRISP_DM_Process - Data mining v Pythone

Okrem metodiky CRISP-DM môžeme ešte na záver uviesť kontrolný krok, zaisťujúci spätnú väzbu na Deployment (napr. ako efektívna bola cielená reklamná kampaň?) a prípadnú aktualizáciu matematického modelu v čase.

Techniky Data Miningu

Ako sme si vyššie popísali, samotné použitie Data Mining techník prichádza na rad v analytickom kroku č. 3, avšak jednou z najdôležitejších úloh je samotný výber správnej analytickej metódy/techniky, čo nasleduje hneď za obchodným krokom č. 1. Existuje rad Data Mining techník :

1. Štatistika:

  • kontingenčná tabuľka,
  • regresná analýza,
  • zhluková analýza,
  • diskriminačná analýza,
  • analýza rozptylu,
  • faktorová analýza,
  • bayesovská štatistika.
2. Strojové učenie:
  • štatistické metódy - pozri bod 1),
  • symbolické metódy umelej inteligencie:
    • rozhodovacie stromy,
    • princípy prípadového posudzovania (Case-Based Reasoning, CBR).
  • subsymbolické metódy umelej inteligencie:
    • neurónové siete,
    • bayesovské siete,
    • genetické algoritmy.
Bližšie sa s týmito Data Mining technikami zoznámime v ďalších lekciách.

V nasledujúcom kvíze, Kvíz - Teória Data Miningu, si vyskúšame nadobudnuté skúsenosti z predchádzajúcich lekcií.


 

Predchádzajúci článok
Základné pojmy Data Miningu
Všetky články v sekcii
Data mining v Pythone
Preskočiť článok
(neodporúčame)
Kvíz - Teória Data Miningu
Článok pre vás napísala Aneta Siobos
Avatar
Užívateľské hodnotenie:
Ešte nikto nehodnotil, buď prvý!
Autor se věnuje datové analýze.
Aktivity