IT rekvalifikácia. Seniorní programátori zarábajú až 6 000 €/mesiac a rekvalifikácia je prvým krokom. Zisti, ako na to!

11. diel - Data Mining - Vplyv makroindikátorov na export - Korelácia

V minulej lekcii, Data Mining - Vplyv makroindikátorov na export - Dokončenie dát , sme dokončili prípravu dát pre ďalšiu reálnu úlohu, týkajúcu sa vplyvu makroindikátorov na vývoj exportu do Nemecka.

V tomto tutoriále Data Miningu využijeme upravené dáta z predchádzajúcich lekcií a zahájime v rámci našej reálnej úlohy štatistické testovanie vzťahov medzi hlavnými makroekonomickými indikátormi Českej republiky a vývojom exportu zo SR do Nemecka. Využijeme na to korelačnú analýzu. Konkrétne využijeme metódu scatter_matrix(), ktorá umožňuje vytvorenie maticového grafu zobrazujúceho vzťahy medzi viac ako dvoma premennými naraz. Najprv si ale prehĺbime základy teórie.

Korelačná analýza

O vzťahu medzi dvoma veličinami hovoríme ako o korelácii. Korelačný koeficient je potom číslo, ktoré vyjadruje silu tohto vzťahu medzi dvoma veličinami. Existuje viacero spôsobov ako koreláciu merať, avšak najviac využívaný je Pearsonov korelačný koeficient (r) pre lineárnu závislosť. Koeficient meria silu lineárnej závislosti, resp. tesnosť medzi dvoma veličinami (nie priebeh závislosti, pre ktorý sa využíva regresná analýza, o ktorej si povieme neskôr). Dve premenné sú korelované, ak určité hodnoty jednej premennej majú tendenciu sa vyskytovať spoločne s určitými hodnotami druhej premennej. Pomocou korelačného koeficientu môžeme vyčísliť, aká silná je väzba medzi našimi dátami, teda vybranými makroekonomickými indikátormi a exportom do Nemecka.

Korelačný koeficient nadobúda hodnoty z intervalu od -1 do 1. Ak je hodnota kladná, zodpovedá zväčšeniu jednej veličiny zväčšeniu druhej. Ak je hodnota záporná, zodpovedá zväčšeniu jednej veličiny zmenšeniu druhej. Ak je hodnota nulová, nie je medzi veličinami lineárna závislosť. Ak je hodnota presne 1 alebo −1, je medzi veličinami presná lineárna závislosť.

Približná interpretácia hodnôt korelačného koeficientu (záporné hodnoty sú analogické):


 

...koniec náhľadu článku...
Pokračuj ďalej

Vedomosti v hodnote stoviek tisíc získaš za pár korún

Minul si až sem a to je super! Veríme, že ti prvé lekcie ukázali niečo nového a užitočného.
Chceš v kurze pokračovať? Prejdi do prémiové sekcie.

Kúpiť tento kurz

Kúpiť všetky aktuálne dostupné lekcie s funkciou odovzdávanie úloh a certifikátom iba za 490 kreditov
Aktuálny stav konta 0 kreditov
Kúpou tohoto balíčku získaš prístup ku všetkým 16 článkom (13 lekcií, 3 testy) tohoto kurzu.

Pred kúpou tohto článku je potrebné kúpiť predchádzajúci diel

Obsah článku spadá pod licenciu Premium II, kúpou článku súhlasíš so zmluvnými podmienkami.

Čo od nás v ďalších lekciách dostaneš?
  • Neobmedzený a trvalý prístup k jednotlivým lekciím.
  • Kvalitné znalosti v oblasti IT.
  • Zručnosti, ktoré ti pomôžu získať vysnívanú a dobre platenú prácu.

Popis článku

Požadovaný článok má nasledujúci obsah:

V tejto lekcii si ujasníme rozdiel medzi koreláciou a regresiou a nadviažeme testovaním. Využijeme metódu scatter_matrix() a spočítame korelačné koeficienty.

Kredity získaš, keď podporíš našu sieť. To môžeš urobiť buď zaslaním symbolickej sumy na podporu prevádzky alebo pridaním obsahu na sieť.

Článok pre vás napísala Aneta Siobos
Avatar
Autor se věnuje datové analýze.
Aktivity