IT rekvalifikácia. Seniorní programátori zarábajú až 6 000 €/mesiac a rekvalifikácia je prvým krokom. Zisti, ako na to!

19. diel - Filtrovanie dát

V predchádzajúcej lekcii, Vytváranie funkcií typu ufunc a práca s nimi, sme sa naučili vytvárať vlastné funkcie typu ufunc a tiež sme si ukázali použitie funkcií reduce() a accumulate(), ktoré ďalej rozširujú možnosti použitia ufunc.

V nasledujúcom tutoriále knižnice NumPy v Pythone si vysvetlíme postup pri filtrovaní hodnôt polí pomocou polí booleovských hodnôt. Ukážeme si možnosti, ktoré nám v tomto prípade dáva knižnica NumPy.

Filtrovanie dát

Začneme tým, že si ujasníme pojem „filtrovanie“. Princíp filtrovania v základe implementuje aj natívny Python a často sa s ním stretneme aj pri používaní knižnice Pandas. Najlepšie si filtrovanie vysvetlíme na príklade z dátovej vedy. Majme teda niekoľko polí, kedy každé obsahuje iný typ hodnôt. Dohromady vytvárajú takú malú "databázovú" tabuľku. Napríklad mená študentov v triede a dátumy ich narodenia:

students_names = np.array([
                            'Teresa',
                            'Jacob',
                            'Eugene'
                        ])
students_year  = np.array([
                            2006,
                            2005,
                            2006
                        ])

Teraz budeme chcieť nájsť len študentov, ktorí sa narodili v roku 2006. Na to slúži práve filtrovanie. Vytvoríme pole rovnakej dĺžky, ako je počet položiek v originálnom poli, ale na každú pozíciu pomocou True/False doplníme, či spĺňa našu podmienku. Pomocou tohto boolean poľa potom jednoducho "profiltrujeme" originálne pole a vytvoríme nové. To už bude mať iba požadované hodnoty. Pre našu konkrétnu minidatabázu chceme dosiahnuť hodnoty [True, False, True]. Je viac spôsobov, ako takéto pole vytvoriť. Ukážeme si dva jednoduché príklady: .


 

...koniec náhľadu článku...
Pokračuj ďalej

Vedomosti v hodnote stoviek tisíc získaš za pár korún

Minul si až sem a to je super! Veríme, že ti prvé lekcie ukázali niečo nového a užitočného.
Chceš v kurze pokračovať? Prejdi do prémiové sekcie.

Kúpiť tento kurz

Kúpiť všetky aktuálne dostupné lekcie s funkciou odovzdávanie úloh a certifikátom iba za 800 kreditov
Aktuálny stav konta 0 kreditov
Kúpou tohoto balíčku získaš prístup ku všetkým 24 článkom (19 lekcií, 5 testov) tohoto kurzu.

Pred kúpou tohto článku je potrebné kúpiť predchádzajúci diel

Obsah článku spadá pod licenciu Premium, kúpou článku súhlasíš so zmluvnými podmienkami.

Čo od nás v ďalších lekciách dostaneš?
  • Neobmedzený a trvalý prístup k jednotlivým lekciím.
  • Kvalitné znalosti v oblasti IT.
  • Zručnosti, ktoré ti pomôžu získať vysnívanú a dobre platenú prácu.

Popis článku

Požadovaný článok má nasledujúci obsah:

V tutoriále knižnice NumPy si vysvetlíme postup pri filtrovaní hodnôt polí pomocou polí booleovských hodnôt.

Kredity získaš, keď podporíš našu sieť. To môžeš urobiť buď zaslaním symbolickej sumy na podporu prevádzky alebo pridaním obsahu na sieť.

Článok pre vás napísal Miloš Halda
Avatar
Autor se věnuje především bioinformatice a s ní souvisejícím tématům. Nevyhýbá se OOP jazykům, statistice a nástrojům pro analýzu dat.
Aktivity