3. diel - Práca s obsahom - Sumarizácia a zjednodušenie
V minulej lekcii, Práca s obsahom - Písanie textov, sme sa naučili, ako najlepšie napísať rôznorodé texty pomocou AI vrátane prípravy na písanie aj rôznych modifikácií.
V tomto tutoriáli umelej inteligencie sa zameriame na prácu s textom, konkrétne na dôležité sumarizácie a zjednodušovanie textov.
Sumarizácia dlhých textov
Sumarizácia textu je jednou z najúčinnejších metód, ako využiť AI na zefektívnenie práce s rozsiahlymi dokumentmi, kde je kľúčové rýchlo pochopiť podstatu dlhých textov.
Príkladom vhodného využitia sumarizácie sú pracovné meetingy. Predstavme si, že máme niekoľkostránkový prepis z porady, na ktorej sa preberalo množstvo rôznych tém. Čítanie celého prepisu by bolo časovo náročné a mnohokrát zbytočné. AI nástroje dokážu taký prepis skrátiť na niekoľko kľúčových bodov, ktoré zhrnú to najdôležitejšie.
Ďalšou oblasťou, kde je sumarizácia neoceniteľná, sú vedecké, právne, akademické a ďalšie špecifické dokumenty. Tieto texty bývajú často veľmi dlhé a plné zložitého jazyka, čo môže komplikovať ich porozumenie. Sumarizačné nástroje nám dokážu sprostredkovať prehľad hlavných záverov a kľúčových argumentov.
ChatGPT
Sumarizácie veľmi jednoducho používame v ChatGPT. Takto promptujeme zhrnutie dlhšieho odborného textu:
Priprav mi sumarizáciu hlavných myšlienok tohto článku a zhrň ho do maximálne 5 viet:
Priprav mi sumarizáciu hlavných myšlienok tohto článku a zhrň ho do maximálne 5 viet:
Modely hlbokého učenia pre NLP Bežné viacvrstvové perceptróny nie sú schopné zvládnuť interpretáciu sekvenčných dát, kde je dôležité poradie informácií. Aby bolo možné sa vysporiadať s dôležitosťou poradia v sekvenčných dátach, používa sa typ neurónovej siete, ktorá uchováva informácie z predchádzajúcich časových krokov počas trénovania.
Rekurentné neurónové siete sú typy neurónových sietí, ktoré spracovávajú dáta z predchádzajúcich časových krokov v opakujúcich sa cykloch, pričom tieto informácie zohľadňujú pri výpočte váh aktuálneho časového kroku. RNN majú v podstate tri parametre, ktoré sa používajú počas dopredného tréningového priechodu: maticu založenú na predchádzajúcom skrytom stave, maticu založenú na aktuálnom vstupe a maticu, ktorá je medzi skrytým stavom a výstupom. Pretože RNN môžu brať do úvahy informácie z predchádzajúcich časových krokov, dokážu extrahovať relevantné vzory z textových dát tým, že pri interpretácii významu slova zohľadnia skoršie slová vo vete.
Ďalším typom architektúry hlbokého učenia používanej na spracovanie textových dát je sieť s dlhou krátkodobou pamäťou (LSTM). Siete LSTM sú štruktúrou podobné RNN, ale vzhľadom na niektoré rozdiely v ich architektúre majú tendenciu fungovať lepšie ako RNN. Vyhnú sa špecifickému problému, ktorý sa často vyskytuje pri používaní RNN, nazývanému problém explodujúceho gradientu.
Tieto hlboké neurónové siete môžu byť jednosmerné alebo obojsmerné. Obojsmerné siete sú schopné brať do úvahy nielen slová, ktoré sú pred aktuálnym slovom, ale aj slová, ktoré nasledujú po ňom. To síce vedie k vyššej presnosti, ale je to výpočtovo náročnejšie.
Hlboké neurónové siete, ako sú rekurentné neurónové siete (RNN), sú špeciálne navrhnuté na spracovanie sekvenčných dát, kde je dôležité poradie informácií. RNN uchovávajú informácie z predchádzajúcich časových krokov, čo im umožňuje lepšie interpretovať význam slova v kontexte predchádzajúcich slov. Sieť LSTM (dlhá krátkodobá pamäť) je vylepšenou verziou RNN, ktorá sa lepšie vyhýba problémom, ako je explodujúci gradient, a preto dosahuje lepšie výsledky. Hlboké neurónové siete môžu byť jednosmerné aj obojsmerné, pričom obojsmerné siete dosahujú vyššiu presnosť tým, že berú do úvahy ako predchádzajúce, tak nasledujúce slová. Tento prístup však zvyšuje výpočtovú náročnosť.
SummarizeBot
Ďalší z nástrojov pre sumarizácie je SummarizeBot. Ide o rozšírenie pre prehliadač, ktorý môžeme stiahnuť z Google Workspace Marketplace. Samotný SummarizeBot potom nájdeme v Google Chate ako účastníka. Po rozkliknutí nájdeme v chate základné informácie, že pre sumarizácie (alebo zistenie kľúčových slov a fráz) môžeme vkladať odkazy na weby, dokumenty, audio súbory alebo obrázky s textom alebo promptovať na zhrnutie určitej témy priamo SummarizeBot:
news about cloud computing
Prompty pre SummarizeBot sú veľmi jednoduché a krátke a je nutné ich zadávať anglicky.
Do chatu môžeme zadať webovú stránku a po odoslaní potom kliknúť na View summary:

Takto získame zhrnutie, ktoré môžeme ešte rozširovať alebo zmenšovať pomocou posuvníka Summary size. Tiež vidíme, koľko minút nám zhrnutie ušetrilo oproti čítaniu celého článku:

Môžeme tu prepnúť aj na prehľad kľúčových slov (Keywords) a fráz (Key fragments):

Zjednodušenie odborných textov
AI pomáha zjednodušovať odborný text tak, aby bol prístupnejší širšiemu publiku. Tento prístup je veľmi užitočný najmä pri komunikácii výsledkov vedeckého výskumu alebo technických špecifikácií širšej verejnosti.
ChatGPT
Skúsme si nechať zjednodušiť veľmi odborný text z oblasti bioinformatiky a genomiky v ChatGPT:
Maximálne zjednoduš tento odborný text pre absolútnych laikov, použi bežnú reč – „Analýza sekvenčných dát vykonávaná pomocou algoritmu Hidden Markov Model (HMM) umožňuje predikciu exon-intrónových hraníc v eukaryotických génoch. Pri použití alignmentu s referenčným genómom sa hojne využívajú heuristické metódy ako Smith-Waterman, ktoré optimalizujú lokálne aj globálny alignment sekvencií Dôležitým krokom je následná anotácia variantov, kde sa využíva pipeline GATK pre volanie variantov a detekciu SNPs a indelov v populáciách. alebo ExAC."
Pri skúmaní génov sa používa metóda, ktorá dokáže predpovedať, kde sa nachádzajú časti génov zvané exóny a intróny. Keď porovnávame sekvencie DNA s už známym genómom, používame rýchle nástroje ako BLAST, aby sa tieto sekvencie čo najlepšie zoradili. Potom je dôležité nájsť genetické zmeny (mutácie) ak tomu pomáha program GATK. Tieto zmeny môžu byť rôzne, od drobných až po väčšie, a vedci ich môžu ďalej zoradiť podľa toho, ako často sa vyskytujú v databázach, ktoré obsahujú informácie o génoch ľudí.
TextCortex
Vyskúšať môžeme aj ďalšie nástroje, ako napríklad TextCortex, kde môžeme rovnako ako v ChatGPT nahrať celý súbor a nechať ho vyhodnotiť. Na homepage vyberieme možnosť Prepisovanie textov:

Na nasledujúcej stránke zvolíme, čo chceme s textom urobiť. Hore môžeme voliť medzi možnosťami Parafrázy alebo Prekladateľ, my tu máme predvolené Parafrázy. Následne buď vložíme samotný text, alebo nahráme PDF dokument. Z možností vyberieme Jednoduché. Potom už len stlačíme pod vloženým textom Zjednodušiť:

Výsledok zjednodušenia časti výukovej lekcie o JavaScripte vyzerá nasledovne:

AI nástroje nielen šetria čas pri sumarizácii textov, ale tiež nám pomáhajú odhaliť skryté vzory a kľúčové informácie, ktoré by mohli byť v dlhých dokumentoch ľahko prehliadnuté. Môžeme sa tiež rýchlo zamerať na to najpodstatnejšie bez zbytočného prehliadania detailov.
V budúcej lekcii, Práca s obsahom – Štylistické úpravy, sa pozrieme, ako využiť AI pre štylistické a gramatické úpravy, parafrázovanie, zmenu tónu aj zistenie zaujatosti.