7 rôznych typov duplicitného obsahu

seo-duplicitny-obsah(a ako sa im vyhnúť)

Duplicitný obsah je v prostredí SEO veľkou témou. Väčšinou sa o ňom hovorí v súvislosti s pokutami od Google. Tento vedľajší účinok duplicitného obsahu je však jednak dosť nafúknutý (Google takmer nikdy nepenalizuje stránky len pre duplicitný obsah), navyše zďaleka nejde o najvážnejší dôsledok. Tri najpravdepodobnejšie problémy z pohľadu SEO, ktoré môže spôsobiť duplicitný obsah, sú tieto:

Premrhaný rozpočet na prezeranie stránok (po anglicky crawl budget). Ak sa duplicitný obsah objavuje na internete a aj na vašej stránke, zaručene tak mrháte aspoň časťou rozpočtu na prezeranie stránok (t.j. počet stránok, ktoré vyhľadávač prezrie za jednotku času). To znamená, že podstatné časti stránky bude prezerať menej často.

Oslabenie odkazov. Pri externej aj internej duplicite obsahu je jednou z najväčších nevýhod z pohľadu SEO oslabenie odkazov. Postupom času si môžu oba odkazy URL vybudovať spätné odkazy, ktoré na ne odkazujú, a ak jeden z nich nie je kanonický (alebo 301 s presmerovaním) a neodkazuje na pôvodný odkaz, tak sa cenné linky, ktoré by pôvodnej stránke pomohli k vyššiemu umiestneniu, prerozdelia medzi obe URL.

Len jedna zo stránok sa bude zobrazovať pre dané kľúčové slová. Keď Google nájde duplicitný obsah, zväčša vo vyhľadávaní zobrazuje len jeden z nich – a neexistuje žiadna záruka, že to bude práve tá stránka, ktorú chcete vo vyhľadávaní vidieť.

Všetkým týmto scenárom sa však dá predísť ak viete, kde sa môže duplicitný obsah skrývať, ako ho odhaliť a ako takéto prípady riešiť. V tomto článku predstavím 7 typov duplicitného obsahu a navrhnem možnosti, ako sa im vyhnúť.

1. Ukradnutý obsah

Ukradnutý obsah je nepôvodný obsah na stránke, ktorý bol bez povolenia skopírovaný z inej web stránky. Google nie vždy dokáže rozlišovať medzi originálom a kópiou, takže sa často stáva, že úlohou vlastníkov stránok je hľadať plagiátorov a vedieť zareagovať, ak dôjde ku krádeží obsahu.

Nanešťastie to však nie je vždy ľahké ani jednoznačné. Ale existuje malý trik, ktorý sám používam.

Ak sledujete, ako sa váš obsah zdieľa a ako sa naň odkazuje (a ak máte blog, tak by ste to naozaj mali sledovať) prostredníctvom sociálnych médií alebo aplikácie na monitorovanie webu, ako je napríklad Awario, môžete zabiť dve muchy jednou ranou. V monitorovacom nástroji zvyčajne používate kľúčové slová, ktoré má nástroj vyhľadávať, URL príspevku a nadpis. Ak chcete vyhľadávať aj skopírované verzie obsahu, stačí doplniť ďalšie kľúčové slovo – úryvok z vášho príspevku. Ideálne by malo isť o dosť dlhú časť, napríklad jednu či dve vety. Potom úryvok označte úvodzovkami, aby nástroj hľadal len stopercentnú zhodu.

Pri takomto nastavení bude aplikácia hľadať zmienky o vašom pôvodnom článku (čiže zdieľania, odkazy, a pod.), ale aj skopírované verzie obsahu, ktoré nájde na iných stránkach.

Ak zistíte, že vám niekto ukradol obsah, mali by ste najprv kontaktovať administrátora webu a požiadať ho o odstránenie článku (alebo nastaviť kanonický odkaz na originál, ak vám to vyhovuje). Ak to nepomôže, môžete plagiátora nahlásiť pomocou správy o porušení autorských práv Googlu.

2. Syndikovaný obsah

Syndikovaný obsah je obsah, ktorý sa uverejní na inej web stránke so súhlasom pôvodného autora. Hoci ide o legitímny spôsob ako vami vytvorený obsah predstaviť novému publiku, je dôležité nastaviť zverejňujúcemu jasné usmernenia, aby sa zo syndikácie nestal problém z pohľadu SEO optimalizácie.
V ideálnom prípade by mal zverejňujúci použiť pri článku kanonický tag, aby jasne naznačil, že vaša stránka je pôvodným zdrojom daného obsahu. Ďalšou možnosťou je pri syndikovanom obsahu použiť tzv. noindex tag. Vždy je najlepšie vykonať manuálnu kontrolu vždy, keď sa syndikovaný obsah zverejní na inej stránke.

3. Stránky HTTP a HTTPS

Jeden z najbežnejších prípadov internej duplicity sú identické URL odkazy http a https na tej istej doméne. Tento problém vzniká, keď prechod na https nie je implementovaný tak obozretne, ako by mal. Tu sú dva najčastejšie scenáre v takom prípade:

1. Časť vašej stránky je https a používa relatívne URL. Často je správne mať len jednu zabezpečenú podstránku alebo adresár (napr. login stránky a nákupné košíky) na stránke, ktorá je inak http. Je však dôležité pamätať na to, že tieto stránky môžu obsahovať interné odkazy odkazujúce na relatívne URL, a nie na absolútne URL:

Absolútne URL: http://www.domena.sk/stranka1/
Relatívne URL: /stranka1/

Relatívne URL neobsahujú informácie o protokole a používajú rovnaký protokol ako základná stránka, na ktorej sa nachádzajú. Ak vyhľadávací robot nájde takýto interný odkaz a rozhodne sa ho preskúmať, dostane sa na https URL. Potom by mohol pokračovať v prezeraní ďalších relatívnych interných odkazov a môže dokonca prejsť celú web stránku v zabezpečenom formáte, a tým pádom zaindexovať dve úplne identické verzie vašej web stránky. V tomto prípade by ste mali pri internom odkazovaní použiť absolútne URL namiesto relatívnych URL. Ak už na vašej stránke sú duplicitné stránky http a https, najlepším riešením je permanentne presmerovať zabezpečené stránky na správne verzie http.

2. Celú stránku ste zmenili na https, no verzia http je stále dostupná. To sa môže stať, ak spätné odkazy z iných stránok smerujú na http stránky alebo ak niektoré interné odkazy na vašej stránke stále obsahujú starý protokol a nezabezpečené stránky nepresmerujú návštevníkov na zabezpečenú verziu. Aby ste sa vyhli oslabeniu odkazov a mrhaniu rozpočtu, použite kód 301 s presmerovaním na všetkých http podstránkach a uistite sa, že všetky interné linky na vašej stránke sú špecifikované prostredníctvom relatívnych URL.

4. WWW a non-WWW stránky

Jednou z najstarších učebnicových príčin duplicitného obsahu je dostupnosť stránky vo verzii www aj vo verzii non-www. Podobne ako pri https, tento problém sa dá vyriešiť použitím kódu 301 s presmerovaním. Možno ešte lepším riešením je špecifikovať, ktorú doménu preferujete v Google Search Console.

5. Dynamicky generované URL parametre

Dynamicky generované parametre sa často používajú na ukladanie určitých informácií o používateľoch (napríklad session ID) alebo na zobrazenie mierne odlišnej verzie tej istej stránky (napríklad pri úprave triedenia alebo filtrovania). Tým vznikajú odkazy URL podobné týmto:

URL 1: http://www.domena.sk/stranka.html?newuser=true
URL 2: http://www.domena.sk/stranka.html?order=desc

Hoci tieto stránky zvyčajne obsahujú ten istý (alebo veľmi podobný) obsah, obe sú pre Google rovnocenné pokiaľ ide o prezeranie. Dynamické parametre často vytvoria nie dve, ale desiatky rôznych verzií URL, čo môže vyústiť do obrovského rozpočtu na prezeranie, ktorý vyjde navnivoč.

Ak na vašej stránke nájdete takýto problém, nastavte kontrolné parametre v Google Search Console. Tak dáte Googlu najavo, ktoré parametre má ignorovať počas prezerania.

6. Podobný obsah

Keď hovoríme o duplicitnom obsahu, často máme na mysli úplne identický obsah. Veľmi podobný obsah však tiež spadá pod to, čo Google definuje ako duplicitný obsah:

„Ak máte veľa stránok, ktoré sú si podobné, zvážte, či by bolo možné jednotlivé stránky rozšíriť alebo všetky konsolidovať do jednej. Ak máte napríklad stránku o cestovaní s dvoma oddelenými stránkami o dvoch mestách, ktoré však zobrazujú rovnaké informácie, mohli by ste stránky buď spojiť do jednej stránky o oboch mestách, alebo by ste ju mohli rozšíriť tak, aby každá obsahovala jedinečné informácie o každom meste.“

Takéto prípady sa často stávajú na stránkach internetových obchodov, kde sa opisy podobných výrobkov líšia len v niekoľkých parametroch. Riešením je pokúsiť sa stránky výrobkov odlíšiť po všetkých stránkach okrem opisu – skvelým spôsobom, ako to docieliť, sú recenzie používateľov. Na blogoch môže vzniknúť problém podobného obsahu ak vezmete staršie informácie, pridáte nové aktualizované informácie a zapracujete ich do nového príspevku. V takomto prípade použite kanonický odkaz (alebo kód presmerovania 301) na staršom článku.

7. Stránky prispôsobené na tlač

Ak sú vaše stránky vo verzii prispôsobenej na tlač dostupné cez samostatné URL, Google ich ľahko nájde a prezrie ich prostredníctvom interných odkazov. Samozrejme, obsah samotnej stránky a jej verzie pre tlač bude rovnaký, a preto opäť dochádza k mrhaniu rozpočtu na prezeranie.

Ak návštevníkom ponúkate verziu pre tlač, uzavrite ju pred vyhľadávacími robotmi prostredníctvom noindex tagu. Ak sú všetky stránky pre tlač uložené v samostatnom adresári, napr. http://www.domena.sk/novinky/tlac, môžete tiež uplatniť zákaz pre celý adresár v robots.txt.

Pár slov na záver

Duplicitný obsah môže byť problémom pre odborníkov na SEO, keďže sa tým oslabuje sila odkazov stránok (a tým aj zhoršuje umiestnenie), zároveň má negatívny dopad na rozpočet na prezeranie, a tak sa nové stránky neprezerajú a neindexujú. Pamätajte na to, že najlepším nástrojom na riešenie problému sú kanonické tagy, kódy s presmerovaním 301 a robots.txt a začlenenie kontroly duplicitného obsahu do auditu stránky, aby sa zlepšila indexácia a umiestnenie.

Aké prípady duplicitného obsahu ste si všimli na vašej stránke a aké techniky používate, aby ste predišli duplicite? Teším sa na vaše postrehy a otázky v komentároch.

 

Autor článku: Filip Adamovič