Zarábaj až 6 000 € mesačne! Akreditované rekvalifikačné kurzy od 0 €. Viac informácií.

21. diel - Práca s PDF súbormi v Pythone – Obrázky a tabuľky

V minulej lekcii, Práca s PDF súbormi v Pythone - Čítanie a extrakcia dát , sme si ukázali ako čítať a extrahovať dáta z PDF súborov pomocou knižníc PyMuPDF a camelot.

V nasledujúcom tutoriále práce s PDF súbormi v Pythone budeme pokračovať v čítaní a extrakcii dát z PDF súboru. Okrem textu, ktorý už načítať vieme, chceme aj informácie o obrázkoch a tabuľkách. Na to opäť využijeme metódu get_text(), tentoraz však s argumentom json.

Využitie JSON na analýzu PDF

Formát JSON nám poskytne detailnú štruktúru súboru. Poďme sa teda pozrieť na štruktúru štvrtej strany nášho modelového dokumentu. Postupujeme nasledovne:


 

...koniec náhľadu článku...
Pokračuj ďalej

Vedomosti v hodnote stoviek tisíc získaš za pár korún

Minul si až sem a to je super! Veríme, že ti prvé lekcie ukázali niečo nového a užitočného.
Chceš v kurze pokračovať? Prejdi do prémiové sekcie.

Kúpiť tento kurz

Kúpiť všetky aktuálne dostupné lekcie s funkciou odovzdávanie úloh a certifikátom iba za 550 kreditov
Aktuálny stav konta 0 kreditov
Kúpou tohoto balíčku získaš prístup ku všetkým 25 článkom (22 lekcií, 2 praktické cvičenia, test) tohoto kurzu.

Pred kúpou tohto článku je potrebné kúpiť predchádzajúci diel

Obsah článku spadá pod licenciu Premium, kúpou článku súhlasíš so zmluvnými podmienkami.

Čo od nás v ďalších lekciách dostaneš?
  • Neobmedzený a trvalý prístup k jednotlivým lekciím.
  • Kvalitné znalosti v oblasti IT.
  • Zručnosti, ktoré ti pomôžu získať vysnívanú a dobre platenú prácu.

Popis článku

Požadovaný článok má nasledujúci obsah:

V nasledujúcom tutoriále práce s PDF súbormi v Pythone dokončíme našu čítačku PDF súborov. Použijeme knižnice PyMuPDF a camelot.

Kredity získaš, keď podporíš našu sieť. To môžeš urobiť buď zaslaním symbolickej sumy na podporu prevádzky alebo pridaním obsahu na sieť.

Článok pre vás napísal Jakub Jakubec
Avatar
Aktivity