Vianoce v ITnetwork sú tu! Dobí si teraz kredity a získaj až 80 % extra kreditov na e-learningové kurzy ZADARMO. Zisti viac.
Hľadáme nové posily do ITnetwork tímu. Pozri sa na voľné pozície a pridaj sa k najagilnejšej firme na trhu - Viac informácií.

6. diel - Úvod do formátu XML v Pythone

V predchádzajúcom cvičení, Riešené úlohy k 1.-5. lekciu práce so súbormi v Pythone, sme si precvičili získané skúsenosti z predchádzajúcich lekcií.

Dnes sa v Python tutoriále zameriame na formát XML, najskôr si ho popíšeme, v ďalšej lekcii si ukážeme triedy, ktoré nám Python poskytuje na jeho čítanie a zápis.

Formát XML

Teraz vás zahrnu množstvom pojmov, keď niečomu nebudete rozumieť, vôbec to nevadí, všetko si tu ešte preberieme:)

XML (eXtensible Markup Language) je značkovací jazyk, ktorý vyvinulo W3C (organizácia, ktorá má na starosti webové štandardy). XML je veľmi univerzálny a je podporované množstvom jazykov i aplikácií. Slovo extensible (rozšíriteľný) označuje možnosť vytvoriť si pomocou XML vlastný jazyk, tým je napr. XHTML pre tvorbu webových stránok. XML je jazyk samopopisovací, má takú štruktúru, že spoznáme, čo ktorá hodnota označuje. Zatiaľ čo v CSV sa môžeme len domnievať, čo je tá tretia osmička, v XML by nám bolo hneď jasné, že je to počet článkov používateľa (napríklad).

Nevýhodou formátu je samozrejme jeho väčšia veľkosť, čo nám však vo väčšine prípadov nevadí. Osobne takmer vždy pri výbere formátu siaham po XML, hodí sa napr. na uloženie konfigurácie programu, high-score hráčov hry alebo k menšej databáze užívateľov. Vďaka XSD schémam ho môžeme jednoducho zvalidovať a predísť chybám pri behu programu.

XML je možné spracovávať hneď niekoľkými spôsobmi. Obvykle jednoduchým kontinuálnym čítaním/zápisom alebo pomocou objektovej štruktúry DOM. Došlo to tak ďaleko, že nám niektoré nástroje umožňujú s XML dokumentom pracovať podobne ako s databázou a volať nad ním otázky. Asi si dokážete predstaviť, že to uľahčí prácu. Takým jazykom na dopytovanie sa nad XML súbormi je napr. XPath.

XML vs. JSON

XML konkuruje formát JSON, ktorý je jednoduchší, ale menej populárny v obchodných aplikáciách. Ten na rozdiel od XML umožňuje ľahké logovanie na koniec súboru bez načítania celého dokumentu. Keďže JSON je skratka z JavaScriptu Object Notation a JavaScript je jazyk primárne webový, nájdeme tento formát najmä vo webových technológiách.

XML sa veľmi často používa na výmenu dát medzi rozdielnymi systémami (napr. desktopovou aplikáciou a webovou aplikáciou na serveri), preto ako už bolo spomenuté existuje pre neho mnoho knižníc a každý nástroj ho pozná a vie s ním pracovať. S tým súvisia webové služby, SOAP a podobne, čím sa však teraz nebudeme zaoberať.

Ukážka XML súboru

Minule sme si uložili zoznam používateľov do súboru CSV. Ukladalo sa meno, vek a dátum registrácie. Hodnoty boli za sebou, oddelené bodkočiarkami. Každý riadok predstavoval jedného používateľa.

CSV formát

Obsah súboru vyzeral teda asi takto:

Pavel Slavík;22;21.3.2000
Jan Novák;31;30.10.2012

XML formát

Nezasvätený z toho nič veľmi nespozná, však? Urobme si teraz ekvivalent súboru vo formáte XML:

<?xml version="1.0" encoding="UTF-8" ?>
<uzivatele>
    <uzivatel vek="22">
        <jmeno>Pavel Slavík</jmeno>
        <registrovan>21.3.2000</registrovan>
    </uzivatel>
    <uzivatel vek="22">
        <jmeno>Jan Novák</jmeno>
        <registrovan>30.10.2012</registrovan>
    </uzivatel>
</uzivatele>

Teraz každý vidí, čo je v súbore uložené. Vek som tu uložil ako atribút len preto, aby som ukázal, že ich XML vie, inak by mohol byť ako element spolu s menom a registrovaný. Teraz som teda vyzradil, že jednotlivým prvkom sa hovorí elementy. Tie určite všetci poznáte z HTML, ktoré vychádza z rovnakých základov ako XML. Elementy sú väčšinou párové, teda otváracie, potom nasleduje hodnota a uzatvárací tag s lomítkom. Elementy môžu obsahovať ďalšie elementy, štruktúra je teda stromová. Vďaka tomu nie je problém do jediného XML dokumentu uložiť celú hierarchiu objektov.

Na začiatku súboru je XML hlavička. Aby bol dokument validný, musí obsahovať práve 1 koreňový element, tu element < <uzivatele> > , v ktorom sú zabalené ďalšie elementy. Atribúty sa píšu za názov atribútu do úvodzoviek.

Určite vidíme, že súbor nám nabobtnal, to je daň za to, že vyzerá pekne. Keby nemal používateľ vlastnosti len 3, ale napr. 30, bolo by vidieť, ako CSV formát prestáva stačiť.

Osobne sa s pribúdajúcimi skúsenosťami stále viac prikláňam k riešeniam, ktoré sú prehľadné a jednoduché, aj keď treba zaberajú viac pamäte (a to nielen v súboroch, ale aj v zdrojovom kóde). Nič nie je horšie, než keď programátor príde za rok k svojmu programu a vôbec nevie, čo je ten ôsmy parameter v CSV, kde je na riadku 100 nejakých čísel. Alebo čo je to päťrozmerné pole, ktoré je síce hrozne rýchle, ale keby si namiesto neho postavil objektovú štruktúru, nemusel by teraz písať program znova.

S XML sme zoznámení.

V budúcej lekcii, Zápis a čítanie XML súborov v Pythone , sa naučíme ako dáta v XML formáte zapisovať a ako ich potom aj načítať.


 

Mal si s čímkoľvek problém? Stiahni si vzorovú aplikáciu nižšie a porovnaj ju so svojím projektom, chybu tak ľahko nájdeš.

Stiahnuť

Stiahnutím nasledujúceho súboru súhlasíš s licenčnými podmienkami

Stiahnuté 73x (856 B)
Aplikácia je vrátane zdrojových kódov v jazyku Python

 

Predchádzajúci článok
Riešené úlohy k 1.-5. lekciu práce so súbormi v Pythone
Všetky články v sekcii
Práca so súbormi v Pythone
Preskočiť článok
(neodporúčame)
Zápis a čítanie XML súborov v Pythone
Článok pre vás napísal MQ .
Avatar
Užívateľské hodnotenie:
Ešte nikto nehodnotil, buď prvý!
Používám hlavně Python a zajímám se o Deep Learning a vše kolem.
Aktivity