jak přibližně fungují
Co jsou vyhledávače - Jak pracují vyhledávače - Robot prochází internetem - Jak přilákat roboty - Indexování - Klíčová slova - Vyhledávání - Čeština - Příklady vyhledávačů - Další informace
Třeba Google, Seznam, Bing nebo třeba Yahoo.com. Servery, které mají velikou databázi stránek s informacemi o tom, která stránka internetu obsahuje jaké slovo. Protože takové vyhledávače umějí hledat v celém textu stránek, říká se jim fulltextové. Takových serverů existují řádově stovky. Nepleťte si prosím fulltextové vyhledávače s katalogy (Yahoo, katalog Seznamu), ačkoli poslední dobou (2012) už pořádné katalogy skoro neexistují.
Programům, které procházejí web a schraňují pro vyhledávače informace, se říká roboti, boti nebo crawleři.
Na české stránky přichází nejvíce uživatelů přes fulltext Seznamu. Světově nejdůležitější vyhledávač je Google. Více informací o Google. Údaje uvedené níže platí ale pro všechny fulltextové vyhledávače.
Ve třech krocích:
Většinou někde začne, třeba v nějakém katalogu. Najde odkaz a sleduje ho. Nalezenou stránku si stáhne pro zaindexování, zároveň hledá další odkazy, které případně opět sleduje, aby si to zase postahoval.
Z toho vyplývá, že robot může odhalit pouze stránku, na kterou vede nějaký odkaz. Musí přitom jít o klasický odkaz (na to obzvláště upozorňuji milovníky různých JavaScriptových parádiček). Pokud na vaše stránky nebudou roboti chodit, žádný čtenář ty stránky nemůže najít fulltextovým vyhledávačem.
V praxi ale roboti najdou jenom část stránek, které existují, protože to prostě všechno nestíhají.
Někteří přijdou sami poté, co se vaše stránka objeví na nějaké stránce. Jiné roboty musíte popohnat. Většinou je potřeba na stránkách vyhledávače někde najít nenápadný odkaz přidej odkaz, add a link, submit site, add site a podobně. Zadá se URL adresa (doporučuji kontrolovat), to je vše. Roboti časem přijdou. Znám takhle stránky na přidání do Google a do Seznamu.
Google a další moderní roboti prý přijdou na stránku teprve tehdy, když najdou určité množství odkazů, které na stránku míří. Proto je třeba mít zajímavý obsah, aby jiní autoři na moje stránky odkazovali.
Osobně jsem velmi skeptický k programům, které slibují, že přidají odkaz do spousty vyhledávačů.
Opravdu důležitých dobrých vyhledávačů je jen málo, není třeba být ve všech špatných.
Pomocí standardu robots.txt nebo pomocí meta tagů robots. Napsal jsem o tom samostatnou stránku o robots.txt (původně byla součástí tohoto textu). Tamtéž píšu o meta tagu robots a o atributu rel=nofollow.
Čili zpracování dat do databáze. Každý vyhledávač si žvýká nasbírané informace po svém. Nejčastěji si vypisuje všechna slova, počítá jejich váhu a dává je do relace s adresou stránky.
Při hledání slova vyplivne vyhledávač první adresy stánek, na kterých má hledané slovo velkou váhu. Jak se váha počítá? Aneb jak se pozná, zda je slovo pro stránku charakteristické? Především tak, že se dané slovo vyskytuje v titulku stránky, v klíčových slovech, v popisu a v nadpisech. Je nutno poznamenat, že každý vyhledávač to počítá jinak
Co vyhledávače sledují | Jak je to v HTML | Důležitost (váha) |
---|---|---|
titulek | <title>text titulku</title> | obrovská |
klíčová slova | <meta name=keywords content="slovo, slovo"> |
značná, někdy žádná (Google) |
popis (description) | <meta name=description content="Stručný popis"> |
různá |
nadpis 1. úrovně | <H1>Nadpis</h1> | značná |
ostatní nadpisy | <Hn>Nadpis</hn> | sporná |
začátek stránky | <body>Několik prvních slov ... | větší než malá |
adresa URL | jméno souboru včetně cesty | různá |
text odkazů mířících na tu stránku z jiného serveru | <a href="adresa">text odkazu</a> | u některých vyhledávačů obrovská (Google, Seznam) |
alty u obrázků | <img alt="zástupný text" ...> | malá |
text stránky | prostě text | malá |
katalogový popisek | co zadáte do případného spřízněného katalogu | různá (pouze na Seznamu) |
V tabulce jsem nastínil pouze nejčastější kritéria. Ještě jednou musím zdůraznit, že se různé vyhledávače v počítání relevance opravdu velmi liší. Například Google prý zcela ignoruje klíčová slova (meta keywords). Nebo existují specializovaní roboti, kteří hledají třeba jenom obrázky nebo počet odkazů.
Velký význam býval připisován klíčovým slovům (keywords) a popisu (description). Zapisují se jako meta tagy. V zásadě se dá říci, že keywords by měl být seznam slov charakteristických pro danou stránku. Například zápis klíčových slov pro tuto stránku:
<meta name="keywords" content="vyhledávač,indexování,meta,keywords,description,robot,robots.txt, user-agent, disallow, altavista, google">
Význam klíčových slov v poslední době (myšleno 2004) zcela upadl, protože spousta lidí do nich píše nesmysly a marketingové žvásty. Autoři vyhledávačů to vědí, a tak význam keywords v kritériích snižují. Například Google nebo Seznam již klíčová slova ignorují zcela. Dnes mají keywords větší význam pouze pro interní vyhledávače (například Atomz).
Naopak určitý význam si uchovává meta tag description. Všechny důležité vyhledávače (pokud vím) jej berou v úvahu.
<meta name="description" content="Jak zakázat robotům přístup na web nebo jak zlepšit výsledky vyhledávání">
Google zobrazuje popisek pod titulkem vyhledávání v případě, že popisek obsahuje hledané slovo (domnívám se, že s description pracuje stejně jako s nadpisem nejvyšší úrovně).
Je zajímavé popřemýšlet, jak se moje nalezená stránka zobrazí. Jako klikací odkaz se vypisuje titulek stránky (obsah tagu <title></title>), pod ním tři různé věci:
Nejčastěji to býval právě description (takže je dobré jej zadávat), poslední dobou vítězí kusy textu kolem hledaného výrazu (zejm. Google). Hlavně je ale třeba mít správně zadaný titulek stránky.
Různé vyhledávače řadí výsledky různě. Obecně se dá říci, že čím více se hledaná slova na stránce vyskytují a čím mají významnější pozici (titulky, nadpisy), tím je stránka řazena výše. Sleduje se i text odkazů mířících na stránku, zda obsahuje hledané slovo. Algoritmy ale nikdo přesně nezná a liší se nejen od vyhledávače k vyhledávači, ale např. na Google prý každý měsíc. Proto nemá cenu psát sem víc.
Další metodou je takzvaný PageRank (PR), který používá Google (GPR) a poslední dobou (míněno 2005) mnoho jiných vyhledávačů. PR vyjadřuje něco jako věrohodnost nebo důležitost stránky. Page Rank ovlivňuje řazení výsledků, nikdo ale přesně neví jak (asi podstatně). Jaké mají vaše stránky Page Rank, se můžete dozvědět, pokud si stáhnete a nainstalujete Google Toolbar, což je taková lištička do prohlížeče.
GPR se počítá podle toho, kolik stránek danou stránku odkazuje -- čím více, tím lepší PageRank. Navíc odkazy ze stránek s vyšším PR mají větší váhu. Google Page Rank se počítá postupným přepočítáváním (iterací). Existuje na to vzoreček. Více o Google.
Dříve to byla magie, ale dnes (2005) už je docela pohoda, protože všechno funguje, jak má. S češtinou jsou spojeny dvě zásadní otázky, které spolu nesouvisejí:
Dříve bylo nutno zadávat dotaz dvakrát. Jednou bez diakritiky, podruhé s ní. Vyskytují-li se navíc ve slově znaky ž, š a ť, bylo třeba opakovat hledání v jiném kódování. Dnes (2005) už to není potřeba, všechny moderní vyhledávače rozumějí češtině. Umějí rozeznat všechny hlavní znakové sady iso-8859-2, windows-1250 i UTF-8.
Některé málo rozšířené hloupější zahraniční vyhledávače kódování češtiny ignorují a zapisují slova tak, jak je vidí v ascii kódu. To znamená, že třeba písmenko š si zapíšou jednou jako $185, jindy jako $154. Většina moderních vyhledávačů si texty ale převádí do unicode.
Jak vyhledávače poznají, v jakém jazyce je text?
Protože počítání slov není vždy spolehlivé, není divu, že se vyhledávače občas v rozpoznání jazyka pletou. Google má (myslím) navíc nějaké rozbité slovníky, protože mezi českými výsledky často nacházím turecké a maďarské stránky.
Aktualizováno v březnu 2005 a v srpnu 2010.
Něco z toho, co jsem psal na této stránce, je do určité míry nejisté. Aby zabránili podvodům, autoři vyhledávačů důležité informace tají (sám mám prsty ve fulltextu Seznamu, a tak taky neřeknu nic víc, než chci).
Zdroje na další informace naleznete v mém katalogu odkazů na SEO. Nejlepší zdroj je asi stránka www.vyhledavace.info.
Jak psát web píše Yuhů, Dušan Janovský. Kontakt.