Robots.txt a SEO – optymalizacja procesu skanowania strony przez wyszukiwarki

Wyszukiwarki indeksują miliony stron na godzinę, starając się znaleźć przydatne informacje dla użytkowników. Zarządzanie procesem skanowania Twojej witryny może znacznie ułatwić robotom wyszukiwarek dostęp do potrzebnej im zawartości. Plik robots.txt pomaga zoptymalizować ten proces.

W tym artykule dowiesz się:

Co to jest plik robots.txt?
Co powinien zawierać?
Jak utworzyć plik robots.txt?
Jak sprawdzić jego działanie?
Jak zgłosić go wyszukiwarkam?
Przykłady pliku robots.txt dla popularnych CMS

Każda strona o złożonej strukturze powinna posiadać poprawnie skonfigurowany plik robots.txt z zestawem reguł odpowiadających strategii indeksowania całej domeny. Zadanie może wydawać się trudne, jednak robots.txt to zbiór prostych reguł, w których podajesz adresy, które należy wykluczyć z indeksacji. Ten artykuł pomoże Ci zrozumieć, jak korzystać z tego pliku.

Table of Contents

Podstawy robots.txt

Plik robots.txt jest bardzo ważnym elementem strategii indeksowania stron przez roboty wyszukiwarek (Google, Yahoo, Bing i inne). Warto zapoznać się z podstawowymi informacjami na jego temat.

Co to jest robots.txt?

Robots.txt to mały plik zawierający szereg instrukcji dla robotów skanujących Twoją stronę. W pewnym sensie zezwala lub blokuje dostęp do określonych obszarów witryny. Dzięki robots.txt możesz blokować dostęp wyszukiwarek do stron nieistotnych dla wyników wyszukiwania.

Co zawiera robots.txt?

Plik robots.txt zawiera zestaw instrukcji dla robota. Na podstawie tych instrukcji robot decyduje, czy może wejść na daną podstronę (adres URL). Składnia tego pliku dla strony na WordPressie może wyglądać następująco:

User-agent: *
Disallow: /wp-admin/

Allow: /wp-admin/admin-ajax.php

Oznacza to, że robot nie może wchodzić na strony zawierające /wp-admin/ w adresie URL. Dzięki temu robot nawet nie próbuje odwiedzać adresów związanych z panelem administracyjnym WordPressa.

Ostatnia linia to wyjątek od poprzedniej reguły. Robotowi zezwala się na korzystanie z zasobów przesyłanych przez plik admin-ajax.php, który może dynamicznie przesyłać określone dane.

Dlaczego potrzebny jest robots.txt?

Plik robots.txt jest przede wszystkim potrzebny dla dużych i złożonych stron z dużą ilością dynamicznej zawartości. Skanowanie zasobu z milionami podstron może zająć wiele miesięcy, a nie zawsze jest potrzeba, aby Google wchodziło na każdą podstronę. Ograniczenia dostępu pomogą zoptymalizować „crawl budget”. Dzięki temu Google częściej skanuje ważne dla SEO podstrony, pomijając nieistotne.

Weźmy na przykład część pliku robots.txt strony logicznakuznia.eu:

User-agent: *
Disallow: /raporty/

Ten wpis oznacza, że nie zezwalamy wszystkim robotom na skanowanie podstron z raportami, które generujemy dla różnych stron. Dzięki niemu robot nie zobaczy żadnego raportu pod adresem:

https://logicznakuznia.eu/raporty/jakikolwiek-adres.html

Gdzie powinien się znajdować robots.txt?

Plik robots.txt powinien znajdować się zawsze pod adresem twojadomena.pl/robots.txt. Aby sprawdzić, czy istnieje na Twojej stronie, wystarczy w pasku adresu dodać do domeny /robots.txt. W naszym przypadku plik znajduje się pod adresem:

https://logicznakuznia.eu/robots.txt

Jeśli na Twojej domenie nie ma pliku robots.txt pod podanym adresem, musisz zatroszczyć się o jego dodanie, jeśli jest to konieczne.

Zawartość robots.txt

Plik robots.txt może zawierać kilka ważnych elementów:

Dyrektywy Allow i Disallow

Dyrektywy Allow i Disallow to instrukcje dla robota wskazujące, czy może on wejść na określony adres URL i go zeskanować. Domyślnie każdy robot może odwiedzać wszystkie adresy, aby zablokować dostęp do jakiegoś obszaru, należy użyć dyrektywy Disallow w następujący sposób:

User-agent: *
Disallow: /wp-admin/

Te dwie linijki w pliku robots.txt blokują robotom dostęp do wszystkich adresów URL zaczynających się od /wp-admin/, więc roboty nie będą skanować panelu administracyjnego WordPressa.

Dyrektywa Allow zezwala na skanowanie określonych adresów URL. Po co jej używać, skoro domyślnie robot zawsze może wejść na stronę? Dzięki niej możesz dodawać wyjątki.

Reguła, którą widzieliśmy wcześniej, blokuje robotom dostęp do katalogu /wp-admin/. Jednak w tym katalogu znajduje się plik, do którego robot powinien mieć dostęp. Dlatego poniżej można dodać wyjątek zezwalający na skanowanie jednego pliku z zablokowanego katalogu:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Drugi wariant użycia Allow to zablokowanie dostępu dla wszystkich robotów z wyjątkiem konkretnego, w tym przypadku robota Google:

User-agent: *
Disallow: /

User-agent: Googlebot
Allow: /

Wskazanie lokalizacji pliku sitemap.xml

Warto wiedzieć, że robots.txt to jeden ze sposobów wskazania adresu URL mapy strony w formacie XML. W tym celu należy dodać jedną linijkę:

Sitemap: https://twojadomena.pl/folder/plik-sitemap.xml

Co to jest user-agent?

Plik robots.txt może działać inaczej dla różnych robotów skanujących, dlatego można w nim ustawiać oddzielne instrukcje dla różnych systemów. Każdy program łączący się z Twoją stroną ma swoją unikalną nazwę systemową – User-Agent.

Roboty, podobnie jak wyszukiwarki, mają unikalne identyfikatory, dzięki którym możemy je rozpoznawać. Oto niektóre user-agent’y robotów Google:

Google Bot – Googlebot/2.1
Googlebot News – Googlebot-News
Googlebot Images – Googlebot-Image/1.0
Googlebot Video – Googlebot-Video/1.0
Google Adsense – Mediapartners-Google
AdsBot-Google
Google app crawler – AdsBot-Google-Mobile-Apps

Przykład user-agentów robotów dla Yandex:

Mozilla/5.0 (compatible; YandexAccessibilityBot/3.0; +http://yandex.com/bots)
Mozilla/5.0 (compatible; YandexBlogs/0.99; robot; +http://yandex.com/bots)
Mozilla/5.0 (compatible; YandexFavicons/1.0; +http://yandex.com/bots)
Mozilla/5.0 (compatible; YandexImages/3.0; +http://yandex.com/bots)
Mozilla/5.0 (compatible; YandexImageResizer/2.0; +http://yandex.com/bots)
Mozilla/5.0 (compatible; YandexMetrika/4.0; +http://yandex.com/bots)

Przykład dla Bing

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm) Chrome/116.0.1938.76 Safari/537.36
Mozilla/5.0 (iPhone; CPU iPhone OS 7_0 like Mac OS X) AppleWebKit/537.51.1 (KHTML, like Gecko) Version/7.0 Mobile/11A465 Safari/9537.53 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)

Tworzenie robots.txt

Istnieje kilka sposobów tworzenia pliku robots.txt w zależności od sytuacji i potrzeb:

Statyczny robots.txt

Najpopularniejsza metoda to ręczne tworzenie pliku. Polega na utworzeniu zwykłego pliku .txt i umieszczeniu go na serwerze. Wszystkie reguły i przypisane do nich user-agent’y musisz wprowadzić ręcznie, dlatego wymagana jest znajomość wszystkich elementów pracy pliku.

Generatory robots.txt

Druga opcja to korzystanie z generatorów. Dzięki nim nie musisz znać dokładnej składni pliku, wystarczy wiedzieć, jakie adresy i/lub roboty chcesz zablokować, a także ewentualnie podać link do sitemap.xml.

Dynamiczny robots.txt

Trzecia metoda to generowanie pliku przez aplikację/stronę, dla której jest przeznaczony. Dla Google nie ma znaczenia, czy jest to zwykły plik na serwerze, czy podstrona pod adresem domena.pl/robots.txt. Pozwala to na automatyczne generowanie takiego pliku z systemu CMS.

Co daje taka opcja? Plik robots.txt może być generowany i aktualizowany w zależności od ustawień indeksowania poszczególnych działów strony. Na przykład, jeśli wyłączysz z indeksacji część podstron, system może automatycznie dodać odpowiednią regułę w robots.txt. Dzięki temu nie będziesz zapominać o jego edycji.

Testowanie robots.txt

Plik robots.txt można testować w starszej wersji Google Search Console. W tym celu należy zalogować się do GSC, a następnie przejść do linku:
https://www.google.com/webmasters/tools/robots-testing-tool

Dzięki temu narzędziu możesz sprawdzić, czy Google będzie przestrzegać wszystkich reguł w pliku dla poszczególnego adresu URL. Możesz wprowadzać potencjalne adresy URL i sprawdzać, czy robot będzie je odwiedzać czy nie. To narzędzie jest bardzo przydatne przy dużej liczbie złożonych reguł, np. dla sklepów internetowych.

Przykłady reguł w robots.txt:

Blokowanie wszystkich robotów dla całej strony (przydatne dla wersji deweloperskich i kopii stron): User-agent: * Disallow: /
Blokowanie jednego działu strony: User-agent: * Disallow: /dzial/
Blokowanie jednego działu, z wyjątkiem jednego pliku: User-agent: * Disallow: /dzial/ Allow: /dzial/plik.html
Blokowanie jednego pliku: User-agent: * Disallow: /zablokowany-plik.pdf
Blokowanie określonego rozszerzenia: User-agent: * Disallow: /*.pdf$
Blokowanie wszystkich adresów z parametrami: User-agent: Googlebot Disallow: /*?

Historia i powstanie robots.txt

Początki Robots Exclusion Protocol

Plik robots.txt jest częścią starszego protokołu znanego jako Robots Exclusion Protocol (REP). Został on zaproponowany w 1994 roku przez holenderskiego programistę Martijna Kostera. W tamtym czasie Internet zaczynał nabierać popularności, a liczba stron gwałtownie rosła. Pojawiła się potrzeba mechanizmu pozwalającego administratorom stron kontrolować, jak roboty indeksują ich zawartość.

Przyjęcie i standaryzacja

Protokół szybko zyskał popularność i został przyjęty przez większość dużych wyszukiwarek, takich jak Google, Bing, Yandex i Yahoo. Chociaż nie jest to oficjalny standard internetowy, jest szeroko uznawany i stosowany. Co więcej, z upływem czasu dodawano nowe dyrektywy i funkcje, aby dostosować protokół do zmieniających się potrzeb i technologii.

Ciekawostki i dodatkowe funkcje:

Zastosowanie wewnątrzkorporacyjne. Oprócz SEO, robots.txt może być stosowany wewnątrz korporacji do blokowania dostępu do zasobów wewnętrznych przed firmowymi robotami indeksującymi zawartość dla wewnętrznych systemów wyszukiwania.
Inne sposoby wykluczania. Robots.txt nie jest jedynym sposobem zarządzania indeksowaniem strony. Istnieją również meta-tagi i atrybuty linków służące do tego samego celu na poziomie pojedynczych stron lub linków, np.: <meta name=”robots” content=”noindex,”>
Częste aktualizacje. Jeśli Twoja strona jest dynamiczna i często aktualizowana, ważne jest regularne sprawdzanie i aktualizowanie robots.txt, ponieważ nowe działy mogą wymagać zmiany reguł.

Wymagania dla pliku robots.txt

Aby plik robots.txt był poprawnie przetwarzany przez roboty wyszukiwarek, musi spełniać następujące podstawowe wymagania:

Plik musi być dokumentem tekstowym w kodowaniu UTF-8.
Plik musi nazywać się robots.txt, ściśle małymi literami.
Plik musi być umieszczony w katalogu głównym witryny, np. https://site.pl/robots.txt.
Plik jest dostępny dla robotów — serwer, na którym znajduje się witryna, odpowiada kodem HTTP o statusie 200 OK. Sprawdź odpowiedź serwera.
Rozmiar pliku nie powinien przekraczać 500 KB.
Plik działa w ramach tylko jednej domeny. Dla subdomen używaj oddzielnych plików robots.txt
W pliku nie należy blokować do indeksacji stron niekanonicznych, stron z metatagiem robots=”noindex” lub stron, z których są ustawione przekierowania. W przeciwnym razie wyszukiwarki tych ustawień i sygnałów mogą nie zobaczyć i nie uwzględnić.
Niektóre dyrektywy nie są obsługiwane przez wszystkie wyszukiwarki, np. Clean-param dla Yandeksa nie jest uwzględniana przez Google.
W pliku nie można używać cyrylicy.

Nieprawidłowo:

User-agent: Yandex
Disallow: /кошик

Prawidłowo:

User-agent: Yandex
Disallow: /%D0%BA%D0%BE%D1%88%D0%B8%D0%BA

Jeśli nie ma błędów, robot wyszukiwarki przystępuje do skanowania witryny, jej indeksowania i dodawania stron do wyszukiwarki z uwzględnieniem robots.txt.

Yandex obsługuje przekierowanie z pliku robots.txt znajdującego się na jednej stronie do pliku znajdującego się na innej stronie. W takim przypadku uwzględniane są dyrektywy w pliku, na który następuje przekierowanie. Takie przekierowanie może być wygodne w przypadku przenoszenia witryny.

Typowe błędy

Błędy w robots.txt różnią się drastycznie stopniem wpływu na pozycjonowanie strony. Staraj się zminimalizować liczbę błędów dla jak najlepszej indeksacji Twojej strony!

Błąd Ważność Wpływ na indeksację

Użycie „Disallow: /” Krytyczny Blokuje indeksację strony. Może całkowicie wykluczyć stronę z wyników wyszukiwania.
Zamknięcie wszystkich parametrów „Disallow: /*?” Ważny Dyrektywa blokuje indeksację stron z parametrami. Sygnały rankingowe na stronę główną nie są przekazywane, w przeciwieństwie do sytuacji, gdy używane są Clean-param lub tagi kanonicze. Mogą być również zablokowane pliki CSS i JS, co może spowodować, że wyszukiwarka niepoprawnie zindeksuje strony, co jest niekorzystne dla rankingu.

Zamknięcie plików z obrazami, skryptami lub stylami CSS Ważny Oprócz adresów URL z parametrami, ścieżki do obrazów, plików CSS i JS mogą być zamknięte bezpośrednio. Może to pogorszyć indeksowanie zawartości stron, a także wykluczyć ranking w Yandex i Google Images.

Pusta dyrektywa User-agent Ważny Nie wskazano robotów wyszukiwarek, dla których określono reguły. Z powodu tego błędu robots.txt może być nieprawidłowy.

Reguła nie zaczyna się od znaku „/” lub „” Średni Jeśli po dyrektywach Disallow lub Allow nie ma znaku „/” lub „”, dyrektywy nie będą działać.

Nie podano ścieżki do mapy XML lub podano ścieżkę względną Niski Jeśli nie podałeś ścieżki do map XML witryny w pliku robots.txt, musisz je dodać ręcznie w serwisach Yandex i Google dla webmasterów. W przeciwnym razie wyszukiwarki mogą ich nie znaleźć.

Przykłady pliku robots.txt dla popularnych CMS

Poniżej przedstawiono szablony dla najbardziej rozpowszechnionych CMS w Runecie. W tych szablonach indeksacja jest zabroniona dla:

Stron technicznych
Paneli administracyjnych
Stron z wynikami wyszukiwania na stronie
Stron z wynikami działań użytkownika (reset hasła itp.)
Wersji stron do drukowania

Szablony dla CMS są zrealizowane w celu podstawowej optymalizacji indeksowania stron. W każdym przypadku sprawdzaj dostępność wszystkich niezbędnych plików do indeksacji dla każdej strony indywidualnie, nie polegaj całkowicie na szablonowych dyrektywach. Zawsze korzystaj z narzędzi dla webmasterów!

WordPress

User-agent: * # ogólne zasady dla robotów wszystkich wyszukiwarek
Disallow: /cgi-bin # folder służbowy do przechowywania skryptów serwerowych
Disallow: /? # wszystkie parametry zapytań na stronie głównej
Disallow: /wp- # wszystkie pliki WP: /wp-json/, /wp-includes, /wp-content/plugins
Disallow: /wp/ # jeśli istnieje podkatalog /wp/, w którym zainstalowany jest CMS (jeśli nie, # można usunąć to prawidło)
Disallow: ?s= # wyszukiwanie na stronie
Disallow: &s= # wyszukiwanie na stronie
Disallow: /search/ # wyszukiwanie na stronie
Disallow: /author/ # archiwum autora
Disallow: /users/ # archiwum użytkowników
Disallow: /trackback # trackbacki, powiadomienia w komentarzach o linkach do dokumentów internetowych
Disallow: /feed # wszystkie kanały
Disallow: /rss # kanał rss
Disallow: /embed # wszystkie osadzenia
Disallow: /wlwmanifest.xml # plik manifestu Windows Live Writer (jeśli nie używasz, # można usunąć to prawidło)
Disallow: /xmlrpc.php # plik WordPress API
Disallow: utm_= # linki z znacznikami utm

Disallow: openstat= # linki ze znacznikami openstat
Allow: /uploads # otwieramy folder z plikami uploads
Allow: //.js # otwieramy pliki skryptów js
Allow: //.css # otwieramy pliki css
Allow: /wp-.png # zezwalamy na indeksowanie obrazów
Allow: /wp-.jpg # zezwalamy na indeksowanie obrazów
Allow: /wp-.jpeg # zezwalamy na indeksowanie obrazów

Allow: /wp-.gif # zezwalamy na indeksowanie gifów
Allow: /wp-admin/admin-ajax.php # zezwalamy na ajax

# Podaj główne zwierciadło strony, jak w poniższym przykładzie (z WWW / bez WWW, jeśli HTTPS 
# to wpisz protokół, jeśli musisz podać port, wpisz go). Polecenie stało się opcjonalne. 
# Wcześniej Host był rozumiany przez Yandex i Mail.RU. 
# Teraz wszystkie główne wyszukiwarki nie uwzględniają polecenia Host.

Host: www.site.pl
# Podaj jeden lub więcej plików Sitemap (nie trzeba duplikować dla każdego User-agent * ).
# Google XML Sitemap tworzy 2 mapy stron, jak w poniższym przykładzie.

Sitemap: http://site.pl/sitemap.xml
Sitemap: http://site.pl/sitemap.xml.gz

Bitrix24

User-agent: * 
Disallow: /cgi-bin
Disallow: /bitrix/
Disallow: *bitrix_*=
Disallow: /local/
Disallow: /*index.php$
Disallow: /auth/
Disallow: *auth=
Disallow: /personal/
Disallow: *register=
Disallow: *forgot_password=
Disallow: *change_password=
Disallow: *login=
Disallow: *logout=
Disallow: */search/
Disallow: *action=
Disallow: *print=
Disallow: *?new=Y
Disallow: *?edit=
Disallow: *?preview=
Disallow: *backurl=
Disallow: *back_url=
Disallow: *back_url_admin=
Disallow: *captcha
Disallow: *?FILTER*=
Disallow: *?ei=
Disallow: *?p=
Disallow: *?q=
Disallow: *?tags=
Disallow: *B_ORDER=
Disallow: *BRAND=
Disallow: *CLEAR_CACHE=
Disallow: *ELEMENT_ID=
Disallow: *price_from=
Disallow: *price_to=         
Disallow: *PROPERTY_TYPE=
Disallow: *PROPERTY_WIDTH=
Disallow: *PROPERTY_HEIGHT=
Disallow: *PROPERTY_DIA=
Disallow: *PROPERTY_OPENING_COUNT=
Disallow: *PROPERTY_SELL_TYPE=
Disallow: *PROPERTY_MAIN_TYPE=    
Disallow: *PROPERTY_PRICE[*]=
Disallow: *S_LAST=  
Disallow: *SECTION_ID=
Disallow: *SECTION[*]=
Disallow: *SHOWALL= 
Disallow: *SHOW_ALL=
Disallow: *SHOWBY=
Disallow: *SORT=
Disallow: *SPHRASE_ID=        
Disallow: *TYPE=
Allow: */upload/
Allow: /bitrix/*.js
Allow: /bitrix/*.css
Allow: /*.js
Allow: /*.css
Allow: /*.png
Allow: /*.gif
Allow: /*.jpeg
Allow: /*.jpg
Allow: /*.svg

# Wskaż aktualną ścieżkę do pliku mapy strony w formacie XML
Sitemap: https://site.ru/sitemap.xml

OpenCart

User-agent: *
Disallow: /*route=account/
Disallow: /*route=affiliate/
Disallow: /*route=checkout/
Disallow: /*route=product/search
Disallow: /index.php
Disallow: /admin
Disallow: /catalog
Disallow: /download
Disallow: /export
Disallow: /system
Disallow: /*?sort=
Disallow: /*&sort=
Disallow: /*?order=
Disallow: /*&order=
Disallow: /*?limit=
Disallow: /*&limit=
Disallow: /*?filter_name=
Disallow: /*&filter_name=
Disallow: /*?filter_sub_category=
Disallow: /*&filter_sub_category=
Disallow: /*?filter_description=
Disallow: /*&filter_description=
Disallow: /*?tracking=
Disallow: /*&tracking=
Disallow: /*?page=
Disallow: /*&page=
Disallow: /wishlist
Disallow: /login

Sitemap: http://site.ru/sitemap.xml

Joomla

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /includes/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Disallow: /*com_mailto
Disallow: /*pop=
Disallow: /*lang=ru
Disallow: /*format=
Disallow: /*print=
Disallow: /*task=vote
Disallow: /*=watermark
Disallow: /*=download
Disallow: /*user/
Disallow: /index.php?
Disallow: /*%
Disallow: /*&
Disallow: /index2.php
Disallow: /*tag
Disallow: /*.pdf
Disallow: /*=atom
Allow: /index.php?option=com_xmap&sitemap=1&view=xml

# Wskaż aktualną ścieżkę do pliku mapy strony w formacie XML
Sitemap: http://site.ru/sitemap.xml

Robots.txt – podsumowanie

Plik robots.txt jest ważnym elementem każdej strategii SEO. Chociaż na pierwszy rzut oka może wydawać się drobiazgiem, to właśnie z takich detali składa się pełna i efektywna optymalizacja. Poprawnie skonfigurowany robots.txt nie tylko pomaga zarządzać zasobami serwerowymi, ale również wybierać, które strony powinny być indeksowane przez wyszukiwarki. To krok, który może wpłynąć na widoczność Twojej strony w wynikach wyszukiwania, a co za tym idzie, na jej sukces.

Zaleca się regularne sprawdzanie i aktualizowanie pliku robots.txt, zwłaszcza w świetle nowych aktualizacji algorytmów wyszukiwarek i zmian na stronie. Nie jest to jednorazowe zadanie, ale ciągły proces wymagający uwagi i troski. Teraz, gdy wiesz, jak ważny jest ten mały plik, warto poświęcić czas, aby się nim zająć.

FAQ

Co robi robots.txt w SEO?

Plik robots.txt mówi robotom wyszukiwarek, które adresy URL roboty mogą odwiedzić na Twojej stronie. Jest używany głównie do uniknięcia przeciążenia strony żądaniami; nie jest to mechanizm usuwania strony z Google. Aby usunąć stronę z Google, zablokuj jej indeksowanie za pomocą noindex lub zabezpiecz ją hasłem.

Czy robots.txt jest przestarzały?

Nie, we wrześniu 2019 roku Google przestało obsługiwać nieoficjalną dyrektywę robots.txt noindex. Chociaż jej użycie powinno być zawsze ostatecznością, dyrektywa jest teraz całkowicie bezużyteczna. A co z innymi wyszukiwarkami, np. Bing?

Czy robot.txt jest dobry dla SEO?

Reguły Disallow w pliku robots.txt witryny są bardzo potężne, dlatego należy obchodzić się z nimi ostrożnie. Dla niektórych witryn zapobieganie skanowaniu określonych wzorców adresów URL przez wyszukiwarki jest kluczowe, aby umożliwić indeksowanie i skanowanie właściwych stron – ale niewłaściwe użycie reguł disallow może poważnie zaszkodzić SEO witryny.

Co należy blokować w robots.txt?

W robots.txt należy blokować:

strony uwierzytelniania, koszyka, konta użytkownika,
wyniki działania filtrów i sortowania (jeśli nie ma możliwości blokowania innymi metodami),
strony z wynikami wyszukiwania na stronie.

Jaki jest maksymalny rozmiar robots.txt?

Maksymalny rozmiar pliku robots.txt to 500 KB.

Oficjalne przewodniki i narzędzia

Plik robots.txt dla Yandeksa — https://yandex.ru/support/webmaster/controlling-robot/robots-txt.html
Plik robots.txt dla Google — https://developers.google.com/search/docs/advanced/robots/create-robots-txt?hl=pl
Narzędzie do sprawdzania robots.txt w Yandeksie — https://webmaster.yandex.ru/tools/robotstxt/
Narzędzie do sprawdzania robots.txt w Google — https://www.google.com/webmasters/tools/robots-testing-tool?hl=pl