18. diel - Práca so súbormi DocX v Pythone - Čítanie a štruktúra
V minulej lekcii, Práca so súbormi DocX v Pythone - Obrázky a tabuľky , sme si ukázali pokročilejšiu prácu s DocX
dokumentmi v Pythone pomocou knižnice python-docx
. Prebrali sme
obrázky, a tabuľky.
V nasledujúcom tutoriáli práca so súbormi v Pythone sa
zameriame na čítanie súborov formátu .docx
.
Využijeme na to opäť knižnicu python-docx
.
Čítanie už existujúcich DocX dokumentov
Doteraz sme vytvárali úplne nové dokumenty. Teraz si ukážeme, ako môžeme prečítať obsah už existujúcich dokumentov. Našim cieľom bude vytvoriť kód, ktorý nám poskytne základný prehľad o požadovanom dokumente. Konkrétne nás budú zaujímať nasledujúce informácie:
- text obsiahnutý v dokumente,
- informácie o jednotlivých obrázkoch,
- informácie obsiahnuté v tabuľkách.
Pripomeňme si, že informácie v .docx
súbore sú uložené vo
formáte XML. My teda potrebujeme vytvoriť kód, ktorý nám tieto informácie
extrahuje. Preto je nevyhnutné mať základné povedomie o tom, ako vyzerá
štruktúra XML súboru, ako ho používa MS Word. Využijeme na to znalosti z
lekcie Úvod do formátu
XML v Pythone.
Štruktúra a hierarchia XML súboru formátu .docx
...koniec náhľadu článku...
Pokračuj ďalej
Minul si až sem a to je super! Veríme, že ti prvé lekcie ukázali niečo nového a užitočného.
Chceš v kurze pokračovať? Prejdi do prémiové sekcie.
Obmedzená ponuka: Nauč sa všetko a ušetri
Obsah článku spadá pod licenciu Premium, kúpou článku súhlasíš so zmluvnými podmienkami.
- Neobmedzený a trvalý prístup k jednotlivým lekciím.
- Kvalitné znalosti v oblasti IT.
- Zručnosti, ktoré ti pomôžu získať vysnívanú a dobre platenú prácu.
Popis článku
Požadovaný článok má nasledujúci obsah:
V tomto tutoriále práce so súbormi DocX v Pythone si ukážeme, ako pomocou knižnice python-docx čítať dokumenty. Ukážeme si tiež základy XML štruktúry.
Kredity získaš, keď podporíš našu sieť. To môžeš urobiť buď zaslaním symbolickej sumy na podporu prevádzky alebo pridaním obsahu na sieť.