Czym jest Robots.txt i jak z niego poprawnie korzystać

Wyszukiwarka Google jest łakoma nowych treści, materiałów, grafik i wszystkiego co zostaje umieszczone w internecie, dlatego wpuszcza do sieci tzw. roboty sieciowe, które nieustannie crawlują strony internetowe i indeksują ich zawartość. Jednak co w przypadku gdy nie chcemy aby robot google odwiedzał część naszego serwisu? Tutaj z pomocą przychodzi narzędzie, czyli po prostu plik robots.txt, który powinien być umieszczony w katalogu głównym witryny.

czym jest robots.txt

Plik ten odpowiada głównie za kierowanie ruchem robotów (nie tylko robotów wyszukiwarki google!). Możemy sprecyzować, którego robota mają dotyczyć instrukcje (User-agent). Jeżeli chcemy aby instrukcje dotyczyły wszystkich robotów wystarczy w pliku umieścić fragment: User-agent: *
(* oznacza wszyscy)

Dzięki zawartym w pliku instrukcjom, możemy nakazać robotom aby nie indeksowały wybranych stron (np. różnego rodzaju podstrony, które nie zawierają żadnych istotnych treści itp.).
Przykład: Disallow: /regulamin-serwisu/
Nie należy jednak traktować polecenia „Disallow” jako jedynego sposobu na blokadę zawartości przed indeksowaniem. Roboty sieciowe mogą zaindeksować zablokowane adresy URL w robots.txt, jeżeli znajdą je w innym miejscu w sieci. Dlatego dobrze jest zastosować również meta tag robots w kodzie danej podstrony: <meta name=”robots” content=”noindex”>
Należy pamiętać, że blokując podstronę, blokujemy także odnośniki które do niej kierują, co skutkuje utratą przekazywanej do niej mocy.

Jak stworzyć plik robots.txt?

jak korzystać z robots.txtUtworzyć go można w bardzo łatwy sposób, np. używając systemowego notatnika i zapisując plik jako robots.txt. Poniżej przykład zawartości pliku:

User-agent: *
Disallow: /regulamin-serwisu/

Plik ten należy umieścić na serwerze w katalogu głównym naszej domeny, prawidłowy adres URL powinien wyglądać dokładnie tak: http://www.domena.pl/robots.txt

Nazwa pliku powinna być zapisana małymi literami, bez polskich znaków w nazwie.

Najczęściej stosowane polecenia:

  • Disallow – zabrania robotom indeksowania wskazanych zasobów
  • Allow – pozwala na indeksowanie konkretnego folderu, pliku (jest to domyślna wartość, stosowana głównie do wykluczeń)

Przykład:
User-agent: *
Disallow: /directory/
Allow: /directory/plik.pdf

Podsumowując, plik robots.txt jest stosunkowo łatwym narzędziem, jednak należy stosować go rozważnie, aby nie popełnić błędów, które mogą skutkować wykluczeniem wartościowych stron, czy też całego serwisu z indeksu wyszukiwarki.