O Google

Podle čeho Google řadí - Page Rank - Těžké začátky stránky na Google -Duplicitní obsah - Penalizace - Co Google nevidí - Proč je Google důležitý - Co umožňuje Google webmasterům - Meta tag googlebot - AdWords a AdSense

Tento text je určen provozovatelům stránek, kteří se chtějí trochu zorientovat v tom,

jak Google funguje
a co webmasterům nabízí.

Podle čeho Google řadí

Je známa spousta faktorů. Nikdo sice neví úplně přesně, jak moc je které pravidlo důležité a podle čeho Google řadí výsledky hledání (Google drží jako tajemství), ale pár věcí je evidentních.

Budu hledat slovo W. Jak vysoko bude moje stránka A ve výsledcích? Co na to má vliv:

V první řadě Google samozřejmě prohledává text stránky, titulek a adresu a hledá v nich slovo W (jako to dělaly předchozí úspěšné vyhledávače), ale to zdaleka není jediné kritérium.
Každá stránka má Page Rank, číslo vyjadřující důležitost stránky. Je tím vyšší, čím více jiných stránek na stránku A odkazuje.
Strašně důležitý je text odkazů zvenku, které na stránku A míří, zejména pokud obsahují hledané slovo W.
Google každou stránku A zařazuje do jakýchsi tematických skupin podle toho, jaké jiné stránky na stránku A míří a jaká obsahují důležitá slova.
Záleží na tom, kde ve stránce se hledané slovo W nachází. V titulku a v nadpisech má větší váhu než v ostatním textu.
Čím je stránka starší, tím je obecně lépe nalezitelná.
Existují i další kritéria, která znám, ale nejsem ochoten je prozrazovat.
Další spoustu kritérií neznám.

Google tvrdí, že výsledky řadí podle několika set kritérií -- těmto kritériím se v Googlu říká signály. Pro výslednou pozici stránky A ve výsledcích hledání slov se signály nějak nakombinují. Přesný způsob kombinace

je jednak tajný
dost často se mění
obsahuje prvky umělé inteligence, takže mu možná nerozumějí ani sami kluci v Googlu
záleží na typu dotazu (například jinak se řadí výsledky obsahující něco, co vypadá jako adresa)
závisí na jazykovém nastavení a na lokalitě (státu), odkud se hledající přípojuje
a záleží také na tom, kdo se na ty výsledky zrovna dívá (který přihlášený uživatel)

Page Rank

PageRank je číslo, které si Google počítá pro každou stránku.

Povídání o PageRanku, které bývalo součástí tohoto textu, jsem včetně vzorečku na PageRank přesunul na samostatnou stránku Google PageRank.

Těžké začátky stránky na Google

Když je stránka (tedy URL) úplně nová, tak o ní Google neví. Ale stačí, aby se na ni někde objevil odkaz nebo aby někdo stránku navštívil s nainstalovaným Google Toolbarem a Google se o ní tak dozví. V nouzi se dá stránka Googlu i vnutit.

Google robot (Googlebot) si přijde pro obsah stránky. Stránku si stáhne a někde uloží. Asi tak 40 hodin poté se stránka může začít objevovat ve výsledcích. Může, ale nemusí.

Nová stránka se objevuje ve výsledcích, pokud na ni vede dostatečné množství odkazů z dostatečně významných stránek. Co je to "dostatečně", to přesně nikdo neví.
Nová stránka se tedy ve výsledcích objevit nemusí, pokud nemá dostatek zpětných odkazů.

Hodně nových stránek se ale dostane do výsledků velmi rychle a jsou hodně nahoře. V tu chvíli si majitel mne ruce a bouchá šampaňské. Chyba.

Efekt Everflux

Everflux je označení pro aktuální databázi nových stránek. Jakmile je stránka nová, zobrazuje se na Google z této databáze. Robot, který stránku nasbíral, bývá označován jako freshbot.

Po pár dnech (tři, čtyři, týden) ale stránka z databáze nových stránek zmizí. V tu chvíli není na Google k nalezení. To je situace, ve které lidé propadají panice. Nepropadejte panice.

Po několika dnech až týdnech (řekněme 14 dnů je tak asi průměr) se nová stránka ve výsledcích opět objeví. Tentokrát už je z hlavního indexu, nasbíral ji jiný robot označovaný jako deepbot. Sice stránka už není tak hodně nahoře jako původně, ale její situace je vcelku stabilní.

Málo zpětných odkazů

Může se ovšem stát, že stránka sice ve výsledcích chvíli byla, ale pak už vypadne a prostě není k nalezení. V takové situaci hodně pomáhá přidání zpětných odkazů, to mám docela vyzkoušené. Zpětné odkazy se shánějí špatně, ale měly by stačit odkazy z jiných vlastních stránek nebo registrace v několika katalozích.

Efekt Sandbox

Některým celým webům se jednou za jejich život může stát, že se dramaticky propadnou ve výsledcích vyhledávání. Typicky se při hledání nějakého slova přesune odkaz na moji stránku třeba ze třetího místa na místo třísté. Stane se to všem stránkám na dané doméně. Obvykle jde o weby mladší, typicky méně než jeden rok.

Takovému propadu se říká Sandbox (pískoviště). Spekuluje se, že souvisí s bojem Googlu proti spamu a odkazovým farmám.

Po několika týdnech nebo měsících se stránky do výsledků vracejí. Zda jste se propadli do Sanboxu nebo zda jde o jiný typ propadu, je velmi těžké zjistit. Pokud z různých datacenter Googlu dostáváte jiné výsledky a v některých jste a v jiných ne, pak jste pravděpodobně v Sandboxu.

Duplicitní obsah

Dost lidí má naprosto stejný obsah na různých stránkách nebo doménách. Kdyby vyhledávače neuměly rozeznat, že jde o stejný obsah, uživatelům by se to nelíbilo, protože by ve výsledcích dostávali mnoho naprosto stejných stránek. Možná si pamatujete, že se tak ještě nedávno mnoho vyhledávačů chovalo.

Takže vyhledávače mají algoritmy, kterými zjišťují, zda jde o stejný obsah. Dokonce jsou prý schopné poznat, že se stránka liší třeba jen navigací (tomu se pak naříká duplicita, ale podobnost). Ty algoritmy asi nikdo přesně nezná. Pokud vyhledávače duplicitu zjistí, chovají se různě.

Google duplicitní stránky indexuje tak, že si vybere jednu stránku z mnoha stejných a ostatní ignoruje. To je dost rozumné chování. Je na to ale potřeba myslet, když obsah někam kopírujete, protože se vám může stát, že Google zaindexuje zcela jinou stránku, než chcete.

Pokud se obsah stránek liší jenom trochu, jde o podobnost. Podobné stránky Google sice indexuje, ale vyřazuje je při hledání (vypíše pouze jednu).

Zásadní doporučení proto zní: nekopírujte obsah zbytečně. Pokud musíte mít stejný obsah na více místech, zvažte použití nějakého přesměrování na jednu stránku, nejlépe přesměrování na straně serveru.

Google počítá každé duplicitní stránce (url) PageRank zvlášť. Proto je dobré duplicitní stránky nemít.

Problémy s indexem už nejsou

Aktualizace 2007. Dříve byl problém u jmen startovních souborů. Například stránku

http://www.doména.cz/

Google chápal jako jinou stránku než

http://www.doména.cz/index.html

a považoval je za navzájem duplicitní. Z odkazů, které vedly do rootu /, se počítal PageRank pro root /, z odkazů, které vedly na index.html, se počítal PageRank pro index.html. Nyní už ale Google pozná, že tyto dvě adresy patří k sobě (tomu se říká, že umí adresy kanonizovat) a počítá jim rank dohromady.

Penalizace

Na základě znalosti vzorečku pro Page Rank dají vytvořit "klikací farmy" (množiny navzájem prolinkovaných stránek s náhodným obsahem). Webmasteři používají ke zmatení vyhledávačů i skrytý text obsahující klíčová slova, neviditelné odkazy a jiné další metody. To se Googlu nelíbí, a tak přistoupil k penalizaci takových praktik.

Pravděpodobně to dělají nějakým algoritmem, který podvodné stránky vyhledává. Pracovníci Google navíc sami takové stránky sami vyhledávají. Také se jim dá napovědět. Znáte-li stránku používající nějaké takové nekalé praktiky, můžete ji nabonzovat na stránce https://www.google.com/webmasters/tools/spamreport
(anglicky). Pokud lidé z Google usoudí, že máte pravdu, podvodnou stránku z indexu vyřadí nebo jí nastaví nějakou jinou penalizaci. Dá se to použít na likvidaci nekalé konkurence :-)

Co Google nevidí

Jsou způsoby, jak zaručit (chtěně či nechtěně), aby na stránku Google nepřišel či ji nebral v úvahu:

nenamířit na stránku žádný odkaz
pomocí meta tagů robots nebo pomocí souboru robots.txt zakázat indexování
udělat ji nějak zakódovanou nebo v blbém formátu (prezentace Powerpointu fakt není to pravé)
dát do adresy za otazník proměnnou search=, find= nebo phpssesid=, např. http://cokoliv.cz/page.php?search=1235 Google pravděpodobně nezaindexuje, protože to search považuje za výsledky hledání.

Dříve (až do jara 2004) nebral Google v úvahu stránky, které obsahovaly parametr id=. Nyní už je v úvahu bere.

Dále se uvádí, že má Google nerad moc komplikované adresy, které mají za otazníkem příliš mnoho parametrů. Od roku 2003 se ale situace hodně zlepšuje a dnes (léto 2005) Google chodí i na dost šílené adresy (ale hezké adresy má stále raději než ošklivé).

Proč je Google důležitý

Přes vyhledávání Google chodí na české stránky asi polovina lidí (druhá půlka ze Seznamu, aktualizováno 2012).

Google je důležitý nejen protože přes něj hledá strašně moc lidí, ale hlavně tím, že jej všechny vyhledávače budou napodobovat. I kdyby o svojí pozici nejlepšího vyhledávače přišel, jeho nástupci budou mít hodně podobné algoritmy a zásady. Např. vyhledávač Jyxo se částečně inspiruje Googlem a netají se tím. Podobně ani já se netajím tím, že jsem se při navrhování fulltextu Seznamu také inspiroval Googlem a stále je pro mě bohatou inspirací, i když do detailních algoritmů samozřejmě nevidím.

Co Google umožňuje webmasterům

Znáte to většinou sami. Kromě normálního hledání:

pokročilé hledání podle data, formátu souboru
hledání obrázků
archivování stránek
nalezení odkazů mířících na konkrétní stránku
spoustu dalších věcí
a vyhledávání v rámci jedné domény

Prohledání jednoho webu

Pro webmastery je právě klíčově důležité prohledávání jedné domény. Dá se tak udělat hledací formulář na vlastní stránky. Jsou dva způsoby:

zkusit si pokročilé hledání omezené na moji doménu a z výsledků udělat parazitní formulář
nebo se u Google zaregistrovat na custom search. Vygeneruje se tam kód formuláře a navíc lze barvy výsledku přizpůsobit vzhledu vlastního webu.

Když chcete něco najít na konkrétním cizím webu, nemusíte přes pokročilé hledání. Stačí do normálního hledání napsat třeba:

xhtml site:www.sovavsiti.cz

a bude to hledat informace o xhtml na serveru www.sovavsiti.cz. Nebo

Feynman site:cz

hledá infromace o fyzikovi Feynmanovi v doméně cz. Pozor, to není totéž co hledat v češtině. Pozor, za dvojtečkou není mezera.

Podrobnější návod, jak zjistit, co Google zná z jakého webu -- pomocí operátoru site.

Hledání na vlastním serveru -- více informací a další možnosti.

Zpětné odkazy

Pokročilé hledání Google umožňuje zjistit, jaké stránky odkazují na tu vaši. Je tam možnost "najít stránky odkazující na stránku:" a místo pro zadání adresy. Nebo se to dá i z normálního hledání zápisem

link:http://ta.adresa.cz

najít stránky odkazující na konkrétní stránku. To je pro autory stránek velice zajímavá informace. Pozor, jsou vypisovány pouze důležité stránky. Pokud na nějakou stránku míří odkaz z nepodstatné stránky (PageRank menší než asi 4), Google ji nevypíše. Jestliže chcete najít více odkazujících stránek, zkuste to na yahoo.com, ty jich vypisují až desetkrát tolik.

Podrobněji to rozepisuju v článku Jak zjistit, kdo odkazuje.

Google Search Console (dříve Google Webmaster Tools a Google Sitemaps)

Na adrese https://search.google.com/search-console se můžete přihlásit do Google Search Console (nástroje pro webmastery), což je rozhraní, ve kterém vidíte, jak dobře nebo špatně GoogleBot vaše stránky prochází. Vidíte nejčastější dotazy, ze kterých přicházejí uživatelé, vidíte chyby, které robot zaznamenává (ty můžete opravit).

Trochu zvláštní věc je verifikace, což je proces, který musíte udělat po přihlášení nějakého webu do Search Console. Na webový server musíte umístit prázdný soubor určitého jména, podle kterého Google pozná, že jste to vy, kdo server spravuje. Alternativou je přidat do stránky meta tag nebo záznam do DNS.

V rozhraní můžete Googlu vnutit tak zvanou sitemap = mapu stránek. To je soubor ve zvláštním formátu (upřímně řečeno těch formátů je víc) obsahující všechny adresy (URL) stránek, které chcete, aby Google Indexoval. Pomocí sitemapy tak můžete Googlu pomoci odhalit některé vaše stránky, které zatím neviděl. Sitemapa je důležitá hlavně pro velmi velké weby, které Google prochází pomalu nebo špatně. U menších a dobře proklikávatelných webů není potřeba sitemapu zakládat. Další informace o sitemap.

Já používám Google Search Console hlavně pro pravidelnou kontrolu, jestli nemám na stránkách moc rozbitých vnitřních odkazů.

Meta tag googlebot

Kromě klasického meta tagu robots akceptuje indexovač Google jeden zvláštní meta tag googlebot

snippet / nosnippet

Vypisovat / nevypisovat úryvky (ukázky) ze stránky. Pokud je nastaven "nosnippet", nevypisuje Google žádné úryvky v textu stránky. Maximálně se jako popisek objeví popisek stránky -- to je obvykle text uvedený v <meta name="Description" content="popis stránek">, ale popisek musí obsahovat všechna hledaná slova.

archive / noarchive

Archivovat / nearchivovat verzi stránek v archivu (neboli cache) Google. Pokud dám noarchive, nedostanete se ke staré verzi mých stránek, pokud ji z webu odstraním. V opačném případě bude mít Google uchovanou kopii mých stránek a i když je z webu odstraním, tak například právě přes Google se na ně dostanu, přestože již fyzicky neexistují.

Yuhů: Osobně doporučuji meta tag googlebot moc nepoužívat. Když se nezadá, tak to Google chápe jako snippet,archive. Takové nastavení umožňuje přesnější vyhledávání (Google si udržuje cache kvůli přesnosti) a je větší šance, že si na to uživatel klikne, když uvidí hledané slovo v kontextu (snippet).

AdWords a AdSense

AdWords a AdSense jsou reklamní produkty Google.

Google AdWords zobrazuje reklamní textové odkazy v pravém sloupečku vyhledaných výsledků. Do systému si můžete zadat i svoji reklamu. Stanovíte si klíčová slova, fráze a jazyk. Zvolíte maximální cenu, průměrnou cenu za kliknutí a celkový rozpočet. U málo frekventovaných slov se lze dostat na minimální cenu asi korunu čtyřicet za proklik. Rozhraní je zatím pouze v angličtině, ale lze do něj bez problémů zadávat české reklamy a texty. Více o AdWords.

Na důležitá klíčová slova má Google větší poptávku než nabídku (prostě nemá prostor), a tak spustil produkt AdSense. Ten umožňuje webmasterům (po registraci do Google) umístit určitý reklamní kód do stránky. Na místě reklamního kódu se bude zobrazovat textová reklama posílaná z Google, tematicky související s obsahem stránky. Jde o tatáž reklamní sdělení, která jsou zadána v AdWords. Pokud si čtenáři stránky na reklamu kliknou, dostává webmaster od Google provizi (a Google si započítá proklik na účet klienta, což je ovšem v pořádku). Výše provize mi není známa. Více o AdSense.

Do AdSense je možné registrovat české stránky tuším od prosince 2006. Docela to vydělává, i když výdělky postupem času klesají.

Reklama

www.webhosting-c4.cz, extra rychlý SSD webhosting s doménou v ceně