2. diel - SEO - Princíp internetových vyhľadávačov a Google PageRank
V minulom dieli nášho seriálu o SEO sme si urobili úvod do problematiky optimalizácia webových stránok pre vyhľadávače. V dnešnom dieli pochopíme akým spôsobom vyhľadávače weby hodnotí.
So vznikom internetu začal byť okamžite problém s vyhľadávaním, keďže nikde neexistuje mapa všetkých webových stránok, ktoré sú na ňom uložené. Keď používateľ potrebuje nejakú informáciu, musí najprv nejakým spôsobom zistiť adresu webu, ktorý túto informáciu obsahuje.
Katalógy
Najjednoduchšie riešenie je mapu stránok ručne zostaviť, hovoríme ju potom katalóg. Autori webov pridajú svoje stránky do katalógu, v ktorom následne užívatelia vyhľadávajú. Týmto spôsobom predtým fungoval seznam.cz, než sa preorientoval na fulltextový vyhľadávač. Najväčším katalógom je http://www.dmoz.org/, v ktorom je vložené cez 4.000.000 stránok.
Katalógy sa v dnešnej dobe už takmer nepoužívajú a registrácie nich môže vášmu webu aj vážne ublížiť. Získate totiž spätné odkazy (viď. Ďalej) zo stránok, na ktorých nie je žiadny obsah a len kopa odkazov. Ak sa zaregistrujete do veľkého počtu katalógov, môže si váš web dokonca vyslúžiť aj nepeknú penalizáciu, pretože Google pochopí odkazy ako neprirodzené a podozrivé (a to tiež sú, keď ste si ich vytvorili sami ). Hodilo by sa spomenúť, že existujú platené služby, ktoré sľubujú zvýšenie vášho SEO pomocou registrácie takýchto katalógov. Myslím, že sa to v dnešnej dobe už neoplatí riskovať.
Katalógy predtým mávali naozaj vysoké ranky, teraz je ich význam zanedbateľný.
Vyhľadávače
Internetové vyhľadávače používajú tzv. Crawler (často sa im hovorí tiež pavúky, roboti alebo len boti). Crawler je softvér, ktorý beží niekde v serverovniach vyhľadávače. Jeho úlohou je prehľadávať webové stránky, ktoré si pridáva do databázy. Ak je na prehľadaného webe nejaký odkaz, crawler si ho uloží a následne sa na neho tiež presunie. Keďže na seba stránky na internete vzájomne odkazujú, podarí sa robotom týmto spôsobom preliezť celý internet a získajú prehľad o tom, čo je kde uložené. Vďaka databáze týchto informácií môžeme na internete vyhľadávať a to bez toho aby ľudia museli ručne vkladať alebo aktualizovať nejaké katalógy.
Možno vás napadá, ako Google príde na stránku, ktorá je na internete nová a nikto na ňu ešte neodkazuje. O takej stránke môžete Googlu povedať pomocou formulára na http://www.google.com/...s/submit-url. Akonáhle ju robot raz nájde, bude sa na ňu pravidelne vracať, aby zaindexoval zmeny a novo pridané stránky. Čím je web väčšia a aktuálnejšie, tým častejšie sa na neho roboti vracia.
Robotu Googlu sa hovorí Googlebot, robotu Zoznamu SeznamBot. V predvolenom nastavení sa roboti snažia indexovať všetko čo len ide. Nemusíme sa o ne vôbec starať ani na web vkladať nejaké špeciálne značky. Niekedy je žiaduce, aby roboti nejakú URL adresu neindexovali. K tomu sa používajú buď metaznačky v HTML kóde alebo súbor robots.txt. Robotom môžeme pomôcť pri indexovaní ešte poskytnutím mapy webu (tzv. Sitemap). V seriáli sa k tejto téme ešte vrátime.
PageRanku
Keby vyhľadávač len naindexoval celý internet, nebolo by to príliš prínosné. Je na ňom totiž obrovské množstvo webov (a ich podstránok), medzi ktorými sa musí sofistikovanými algoritmy filtrovať, aby na konci zostalo len to, čo používateľ naozaj hľadá. Vyhľadávač musí vo webovom indexe:
- Pochopiť, o čom web je, aby ho mohol správne zaradiť a ponúkať vo výsledkoch vyhľadávania
- Priradiť webe hodnotenia vzhľadom na jeho veľkosť a kvalite jeho obsahu
Google používa na hodnotenie webových lokalít viac ako 200 rôznych algoritmov. Tým prvým a najvýznamnejším algoritmom je Google PageRank (skrátene GPR). Hoci PageRank nie je jediný algoritmus, ktorý o pozíciu vo výsledkoch rozhoduje, je jeho princíp veľmi dôležitý.
Princíp
Základným predpokladom je, že na kvalitný web odkazujú ostatné weby. Čím je web zaujímavejší, tým viac ľudí si o ňom rozpráva a spomínajú ho na svojich stránkach v podobe odkazov. O týchto odkazoch hovoríme ako o spätných, sú to odkazy z cudzích webov na náš web. Zjednodušene môžeme povedať, že čím viac webov na náš web odkazuje, tým ako zaujímavejšie ho Google (alebo ostatné vyhľadávače) vníma.
Google poskytuje ukazovateľ PageRanku ako tzv. Toolbar PageRank a to ako číslo od 0 do 10. Tento údaj sa obnovuje len raz za čas (asi 2x za rok) a je len orientačná. Interne má Google svoj vnútorný rank, ktorý sa často prepočítava a ktorý nie je vidieť.
Hodnotu Toolbar PageRanku svojho webu si môžete zistiť napr. Na http://ranky.cz/. Nájdete tu i hodnotu Šrank (obdoba GPR od Seznam.cz). Zrovna pre itnetwork nie Toolbar hodnota ešte aktualizovaná kvôli novej doméne. Pagerank má ako celá doména, tak jednotlivé podstránky.
Prelievanie rankov
Výsledná hodnota GPR nášho webu vychádza zo súčtu GPR všetkých webov, ktoré na nás odkazujú.
Čím väčšie GPR majú spätné odkazy na náš web, tým pozitívnejší vplyv majú na celkovej GPR nášho webu. Možno vás napadlo, čo sa stane, keď na seba 2 weby navzájom odkazujú. Taký výsledný efekt je bohužiaľ minimálna. V rámci SEO je teda v našom záujme získať čo najviac spätných odkazov z čo najkvalitnejších webov a to ideálne tak, aby sme my na tieto weby neodkazovali. Keď náš web odkazuje na príliš veľa ostatných webov, jeho GPR sa znižuje.
Hodnoty
Ak Google nejakú stránku vôbec nepozná, rovná sa jej rank 0. Medzi vyššími hodnotami sú stále vyššie priepasti. Kým hodnôt 1-3 je pomerne jednoduché dosiahnuť, hodnoty 4 a vyššie získate väčšinou len keď sa webe naozaj intenzívne venujete. Vysokých hodnôt nemožno v slovenských podmienkach rozumne dosiahnuť. Pre lepší príklad si uveďme niekoľko webov a ich GPR (GPR sa v čase mení, takže hodnoty sú ilustratívne):
- PageRank 10: twitter.com, usa.gov (americká vláda)
- PageRank 9: google.com - (naozaj, ani Google nemá hodnotu 10, takže my na ňu môžeme určite zabudnúť ), Facebook.com, apple.com
- PageRank 8: microsoft.com
- PageRank 7: seznam.cz, idnes.cz
- PageRank 6: Google.cz, lupa.cz
- PageRank 5: lide.cz
Itnetwork mával na predchádzajúcu doméne GPR 4.
Nižšie prikladám síce starší, ale stále výstižný obrázok, vďaka ktorému získame predstavu o rozpätie hodnôt GPR.
Vývoj internetu
Možno vás napadlo, že internet sa predsa stále rozširuje. Stránky majú časom viac a viac článkov a algoritmus ranku by sa tomu mal nejako prispôsobiť. Je tomu tak, hodnotenie Googlu je stále prísnejšie a prísnejšie. Aktualizácia algoritmu prichádzajú asi 2x za rok a musíme sa často zmieriť s tým, že keď sa náš rank po updatu nezmení, je to tá najlepšia možná varianta Že Google sám sebe vypočíta 9 a nie 10 je toho dôkazom.
Význam
Google PageRank by sme mali brať ako jeden zo SEO ukazovateľov. Hoci je veľmi dôležitý, nemá zmysel sa bezhlavo zameriavať len na zvýšení tohto čísla. Weby robíte pre ľudí a existuje veľa stránok, ktoré nemajú vysoké GPR a napriek tomu sú veľmi populárne. Google používa okrem GPR veľa ďalších algoritmov, o najdôležitejších 3 si povieme nabudúce. Reč bude aj o penalizáciu a ako im predísť.