1. diel - Pandas - Predstavenie knižnice
V tomto kurze jazyka Python sa zameriame na knižnicu Pandas. Najprv si vysvetlíme jej účel a naučíme sa, ako knižnicu Pandas nainštalovať. Vysvetlíme si, ako v nej vyrobiť vlastný dataset alebo vložiť dataset cudzí. Ukážeme si tiež, ako pomocou tejto knižnice dokážeme urobiť jednoduchú štatistickú analýzu našich dát. V neposlednom rade si necháme vyrobiť aj pekné grafy.
Predpoklady pre zvládnutie kurzu
Pre úspešné absolvovanie kurzu je nutná znalosť jazyka Python najmenej v rozsahu základov. Výhodou je aspoň základná orientácia v štatistike.
Čo je Pandas?
Pandas je knižnica programovacieho jazyka Python 3, ktorá sa používa na prácu s datasetmi. Názov je vlastne slovnou hračkou, ktorá môže znamenať ako "Panel Data", tak "Python Data Analysis".
Na čo je Pandas?
Knižnica Pandas sa používa na štatistickú prácu s dátami. Povedzme, že máme väčší objem údajov. Pandas je riešením, keď z neho potrebujeme vyťažiť konkrétne informácie. Môžeme ich potom zoradiť na základe hodnôt a treba ich aj očistiť o zlé a prázdne polia. S pomocou Pandas môžeme napríklad zoradiť svetové národy podľa výšky, vytvoriť graf závislosti druhov vtákov na typoch lesa, prípadne spočítať našu priemernú mesačnú útratu za nejaký typ tovaru.
Pandas vs R
Ak už máme so štatistikou nejaké skúsenosti, najskôr sme sa už stretli s programovacím jazykom R. "Erko" je obľúbená freewarová alternatíva používaná vo všetkých možných sférach, či už vo finančníctve alebo napríklad vo vedeckej sfére. Tento komplexný jazyk zaoberajúci sa takmer výhradne štatistikou má oveľa rozsiahlejšie možnosti, než Pandas. Prečo teda použiť Pandas? Dôvod je v podstate rovnaký, ako prečo používať Python samotný. Pandas je užívateľsky oveľa prívetivejší a naučiť sa s touto knižnicou pracovať trvá výrazne kratšiu dobu, než s jazykom R.
Knižnice spolupracujúce s Pandas
V programovacom jazyku označuje knižnica súbor funkcií, ktoré už niekto prichystal pred nami a uložil ich do premenných v rámci konkrétnej knižnice. V praxi nám to ušetrí veľa času a riadkov v kóde, pretože nemusíme písať celú funkciu znova. Stačí nám zavolať si konkrétnu funkciu z konkrétnej knižnice. Pandas je samostatnou knižnicou, ale aby sme plne ocenili jej funkcie, je dobré pri práci s ňou využiť ešte niekoľko ďalších knižníc.
NumPy
Numpy je knižnica, ktorá nám v Pythone umožňuje efektívne vykonávať matematické operácie na veľkých objemoch dát, vrátane tých viacrozmerných. Dôležité je tiež podotknúť, že celá knižnica Pandas stojí na knižnici NumPy.
MatPlotLib
Knižnicu MatPlotLib využijeme vo chvíli, keď budeme chcieť naše výsledky vizualizovať. Umožní nám vytvoriť celú škálu grafov, od korelačného diagramu scatterplotu, cez histogram a krabicový graf boxplot, až po zložitejšie systémy súradníc. Rovnako dokáže tieto vizualizácie farebne upravovať, zoomovať, prípadne vie aj upraviť ich škálu.
Ostatné
Okrem vyššie spomínaných knižníc existuje celý rad ďalších, ktoré majú podobné funkcie, či rozširujú možnosti našej práce s Pandas iným smerom. Napríklad knižnica Statsmodels prehlbuje štatistické funkcie Pandas. Knižnice Altair, Bokeh a Plotly zase rozširujú vizualizačné možnosti. V tomto kurze sa nimi však nebudeme zaoberať.
Inštalácia Pandas
Inštalácia knižnice Pandas je veľmi jednoduchá. Môžeme si zvoliť jednu z dvoch nižšie popísaných metód – buď pomocou PIP alebo pomocou programu Anaconda.
Inštalácia pomocou PIP
Pokiaľ už máme nainštalovaný Python 3 a PIP, stačí do príkazového riadku napísať text nižšie:
pip install Pandas
Po chvíľke čakania bude knižnica Pandas pridaná do nášho Pythona. Rovnakým spôsobom následne nainštalujeme obe knižnice, ktoré využijeme v tomto kurze. Najprv NumPy:
pip install Numpy
A následne Matplotlib:
pip install Matplotlib
Inštalácia pomocou Anacondy
Pre začiatočníkov je tento variant inštalácie jednoduchší, pretože cez Anacondu môžeme do nášho Pythonu stiahnuť aj ďalšie užitočné knižnice a programy. Na stránke Anaconda.com si stiahneme verziu pre náš operačný systém. Dostupné sú pre Windows, MacOS aj Linux. Následne program spustíme a zahájime inštaláciu. Vyberieme zložku, kam Anacondu stiahneme a necháme všetky zaškrtávacie políčka v defaultnom stave. Políčko "Add anaconda to my PATH environment variable." chceme ponechať nezaškrtnuté. Po dokončení inštalácie máme Pandas v našom Pythone pripravený na prácu.
Pandas a Jupyter Notebook
Jedným z najobľúbenejších prostredí pre prácu s Pandas je Jupyter Notebook. Jedná sa o aplikáciu využívajúcu prostredie prehliadača, do ktorej píšeme svoj kód v Pythone. Prostredie, ako už názov napovedá, skutočne pripomína poznámkový blok a je užívateľsky veľmi prívetivé. V Jupyter Notebooku budeme s pomocou Pandas knižnice tvoriť zoznamy, tabuľky aj grafy.
Jupyter Notebook nainštalujeme aj pomocou PIP:
pip install notebook
Vytvorenie projektu
Jupyter Notebook si spustíme buď cez príkazový riadok alebo Anacondu. Na otvorenie príkazového riadka stačí v počítači vyhľadať cmd a kliknúť naň. Akonáhle sa nám príkazový riadok otvorí, zadáme doňho:
python -m notebook
Po pár sekundách sa nám Jupyter Notebook otvorí ako nová záložka v prehliadači.
Ak sme si stiahli Anacondu, môžeme Jupyter Notebook taktiež otvoriť pomocou aplikácie Anaconda Navigator. Po spustení Anacondy si v hlavnom menu aplikácie nájdeme dlaždicu Jupyter Notebook a klikneme na Launch. Opäť sa nám objaví nová záložka v našom prehliadači:
Teraz si vytvoríme nový projekt. V pravom hornom rohu klikneme na New, čím sa nám rozbalí lišta. Hneď ako prvá máme možnosť Python 3. Tú vyberieme a otvorí sa nám nový projekt:
Importovanie Pandas
V samotnom Pythone potom na začiatku nášho kódu importujeme Pandas
pomocou import
. Tradične sa Pandas importuje pod skratkou
pd
, pre prácu to však nie je podmienkou. Spolu s Pandas si
importujeme obe knižnice, NumPy ako np
az knižnice MatPlotlib si
importujeme podmodul pyplot
obsahujúci všetky pre nás
dôležité funkcie. Ten má tradične skratku plt
.
import pandas as pd import matplotlib.pyplot as plt import numpy as np
Stlačením kláves Shift + Enter potvrdíme import knižníc. V tejto chvíli náš Jupyter Notebook vyzerá takto a my sme pripravení s ním začať pracovať:
Knižnicu aj pracovné prostredie teda máme pripravené a môžeme sa pustiť do práce. Pre túto lekciu je to ale všetko.
V budúcej lekcii, Pandas - Tvorba vlastného datasetu, sa dozvieme, ako v Pandas vytvoriť vlastný dataset.