Algoritmus internetového vyhľadávača - Indexácia a kanonizácie
V minulom článku o princípe internetových vyhľadávačov sme sa venovali dátovým barelom, ich štruktúre, StopSlovům a nakoniec si popísali Crawler. Dnešný diel je venovaný indexáciu a kanonizáciu dokumentov na internete.
Indexácia
Proces indexácia vykonáva komponenta zvaná Indexer. Jedná sa o špeciálne navrhnutý program, ktorý zo stiahnutých dát (tie dáta, ktoré stiahol Crawler) urobí špeciálny dátový typ určený na vyhľadávanie - barely.
Problém indexácia je v tom, že nemožno dokumenty "chytro" prechádzať, ale je nevyhnutné
...koniec náhľadu článku...
Pokračuj ďalej
Minul si až sem a to je super! Veríme, že ti prvé lekcie ukázali niečo nového a užitočného.
Chceš v kurze pokračovať? Prejdi do prémiové sekcie.
Kúpiť tento kurz
Pred kúpou tohto článku je potrebné kúpiť predchádzajúci diel
Obsah článku spadá pod licenciu Premium, kúpou článku súhlasíš so zmluvnými podmienkami.
- Neobmedzený a trvalý prístup k jednotlivým lekciím.
- Kvalitné znalosti v oblasti IT.
- Zručnosti, ktoré ti pomôžu získať vysnívanú a dobre platenú prácu.
Popis článku
Požadovaný článok má nasledujúci obsah:
Článok popisuje proces indexácie dokumente pavúkom a jeho vysporiadanie s duplikácie a plagiáty. Pokračujeme v popise algoritmu fulltextového vyhľadávača.
Kredity získaš, keď podporíš našu sieť. To môžeš urobiť buď zaslaním symbolickej sumy na podporu prevádzky alebo pridaním obsahu na sieť.