Nowy przewodnik po optymalizacji Robots.txt

Otwórz potencjał robots.txt: dowiedz się, jak wykorzystać ten plik do blokowania niepotrzebnych adresów URL i poprawy strategii SEO Twojej strony.

Poprawna konfiguracja pliku robots.txt jest ważnym elementem każdej strategii SEO. Błędy w tym pliku mogą wpłynąć na to, jak systemy wyszukiwania indeksują Twoją stronę i jak Twoje strony pojawiają się w wynikach wyszukiwania. Jednak poprawna konfiguracja może zwiększyć efektywność indeksowania i uniknąć problemów z indeksowaniem.

Niedawno Google przypomniało właścicielom stron o znaczeniu używania robots.txt do blokowania niepotrzebnych stron, takich jak strony dodawania do koszyka, logowania czy składania zamówienia. Ale jak poprawnie go skonfigurować?

W tym artykule omówimy wszystkie szczegóły poprawnego użycia robots.txt.

Co to jest robots.txt?

Plik robots.txt to prosty plik tekstowy, który znajduje się w głównym katalogu Twojej strony i wskazuje robotom wyszukiwarek, które strony mają być indeksowane.

Poniżej znajduje się krótka tabela z podstawowymi dyrektywami pliku robots.txt.

Dyrektywa	Opis
User-agent	Określa, do jakiego bota stosują się zasady. Symbol * oznacza, że zasady stosują się do wszystkich botów.
Disallow	Zabrania indeksowania wskazanych adresów URL.
Allow	Pozwala na indeksowanie określonych URL, nawet jeśli katalog nadrzędny jest zablokowany.
Sitemap	Określa lokalizację mapy witryny w formacie XML, pomagając wyszukiwarkom ją znaleźć.

Poniżej znajduje się przykład pliku robots.txt, który zawiera kilka zasad.

Przykład pliku robots.txt

Warto zauważyć, że robots.txt nie obsługuje pełnych wyrażeń regularnych, ale używa dwóch symboli zastępczych:

Gwiazdka (*), odpowiadająca 0 lub więcej znakom.
Znak dolara ($), oznaczający koniec URL.

Ponadto wszystkie zasady w pliku robots.txt są wrażliwe na wielkość liter, np. „filter=” nie jest tym samym co „Filter=”.

Priorytet zasad w robots.txt

Podczas konfigurowania robots.txt ważne jest, aby rozumieć, w jakiej kolejności roboty wyszukiwarek stosują zasady w przypadku konfliktów. Zasady te opierają się na dwóch podstawowych zasadach:

1. Zasada najbardziej szczegółowa.

Zasada, która dotyczy większej liczby znaków w URL, ma pierwszeństwo. Na przykład:

User-agent: *
Disallow: /downloads/
Allow: /downloads/free/

W tym przypadku zasada „Allow: /downloads/free/” jest bardziej szczegółowa niż „Disallow: /downloads/”, dlatego Google pozwoli na skanowanie podkatalogu „/downloads/free/”, ale zablokuje inne strony w katalogu.

2. Zasada mniej restrykcyjna.

Jeśli kilka zasad jest równie szczegółowych, np.:

User-agent: *
Disallow: /downloads/
Allow: /downloads/

Google wybierze mniej restrykcyjną zasadę, czyli pozwoli na dostęp do „/downloads/”.

Dlaczego robots.txt jest ważne dla SEO?

Blokowanie niepotrzebnych stron za pomocą robots.txt pomaga Googlebot skupić się na ważnych częściach strony oraz na nowych stronach. Zmniejsza to również koszty obliczeniowe, co przyczynia się do poprawy wydajności.

Wyobraź sobie, że masz sklep internetowy z setkami tysięcy stron. Istnieją sekcje, takie jak strony z filtrami, które mogą mieć nieskończoną liczbę opcji.

Te strony nie mają unikalnej wartości, zawierają duplikowany content i mogą tworzyć nieskończoną przestrzeń do indeksowania, zużywając zasoby Twojego serwera i Googlebot.

W tym przypadku z pomocą przychodzi plik robots.txt, który zapobiega skanowaniu tych stron przez wyszukiwarki.

Jeśli tego nie zrobisz, Google może spróbować skanować nieskończoną liczbę URL z różnymi (czasem nieistniejącymi) wartościami parametrów wyszukiwania, co prowadzi do wzrostu obciążenia i wydatkowania budżetu na indeksowanie.

Kiedy stosować robots.txt

Podstawowa zasada: zawsze pytaj, czy konkretne strony mają rzeczywistą wartość do skanowania i indeksowania przez roboty wyszukiwarek.

Zgodnie z tą zasadą zawsze należy blokować:

Adresy URL z parametrami zapytań, np.:
- Strony wewnętrzne wyszukiwania.
- Adresy URL z nawigacją fasetową utworzoną za pomocą filtrów lub opcji sortowania, jeśli nie stanowią części struktury URL lub strategii SEO.
Działania, takie jak dodanie do listy życzeń lub koszyka.
Prywatne sekcje strony, takie jak strony logowania.
Pliki JavaScript, które nie są związane z treścią lub wyświetlaniem strony, np. skrypty śledzące.
Blokowanie web scraperów i chatbotów opartych na sztucznej inteligencji, aby zapobiec używaniu Twojego contentu do ich treningu.

Przyjrzyjmy się bliżej, jak używać robots.txt w każdym z tych przypadków.

1. Blokowanie wewnętrznych stron wyszukiwania

Najczęstszy i najważniejszy krok to blokowanie wewnętrznych adresów URL wyszukiwania przed skanowaniem przez Google i inne roboty wyszukiwarek, ponieważ prawie każda strona ma wewnętrzne wyszukiwanie.

Na stronach WordPress jest to zazwyczaj parametr „s”, a adres URL wygląda tak:https://www.example.com/?s=google

Gary Illyes z Google wielokrotnie ostrzegał przed skanowaniem takich „action” URL, ponieważ Googlebot może nieskończoność skanować je, nawet nieistniejące strony z różnymi kombinacjami parametrów.

Przykład zasady, którą można użyć w robots.txt, aby zablokować takie URL:

User-agent: *
Disallow: *s=*

Blokowanie wewnętrznych stron wyszukiwania

2. Blokowanie URL z nawigacją fasetową

Fasetowa nawigacja jest integralną częścią każdego sklepu internetowego. W niektórych przypadkach może być częścią strategii SEO do rankingu na ogólne zapytania.

Na przykład, strona Zalando używa URL fasetowej nawigacji do wyboru koloru, aby uzyskać rankingi na ogólne produkty, np. „szara koszulka”.

W większości przypadków jednak parametry fasetowe są używane tylko do filtrowania produktów, tworząc wiele stron z duplikowanym contentem.

Oto zasady, które mogą być użyte w takim przypadku:

User-agent: *
Disallow: *sortby=*
Disallow: *color=*
Disallow: *price=*

3. Blokowanie PDF-URL

Jeśli masz wiele dokumentów PDF, takich jak instrukcje do produktów, broszury lub pliki do pobrania, i nie chcesz, aby były one skanowane przez wyszukiwarki, możesz użyć następującej zasady:

User-agent: *
Disallow: /*.pdf$

Symbol /* oznacza, że reguła odnosi się do dowolnego adresu URL kończącego się na .pdf.

4. Blokowanie katalogu

Jeśli masz punkt końcowy API, który przetwarza dane wysyłane przez użytkowników przez formularz, możesz zablokować te strony za pomocą następującej zasady:

User-agent: *
Disallow: /form/

5. Blokowanie URL kont użytkowników

Jeśli masz sklep internetowy, prawdopodobnie masz takie katalogi jak „/myaccount/”, na przykład „/myaccount/orders/” lub „/myaccount/profile/”.

Główna strona „/myaccount/” może być stroną logowania, którą chcesz, aby użytkownicy znajdowali za pomocą wyszukiwania. Jednak strony podrzędne mogą nie być potrzebne do skanowania przez Googlebot.

Możesz użyć reguły Disallow w połączeniu z Allow, aby zablokować wszystkie strony w katalogu „/myaccount/”, oprócz samej strony „/myaccount/”:

User-agent: *
Disallow: /myaccount/
Allow: /myaccount/$

Google, przestrzegając najbardziej szczegółowych zasad, zablokuje wszystkie strony w katalogu „/myaccount/”, ale pozwoli na skanowanie tylko strony „/myaccount/”.

6. Blokowanie plików JavaScript niezwiązanych z renderowaniem

Każda strona używa JavaScriptu, a wiele z tych skryptów nie ma nic wspólnego z renderowaniem treści, takich jak skrypty śledzące lub ładowanie reklam za pośrednictwem AdSense.

Googlebot może skanować i renderować zawartość strony bez tych plików. Dlatego ich blokowanie jest bezpieczne i zalecane, ponieważ zmniejsza liczbę zapytań i zasoby potrzebne do obsługi tych plików.

Oto przykład reguły, która blokuje plik JavaScript zawierający piksele śledzące:

User-agent: *
Disallow: /assets/js/pixels.js

7. Blokowanie czatbotów AI i web scraperów

Wielu właścicieli stron obawia się, że ich treści są wykorzystywane do trenowania modeli sztucznej inteligencji bez ich zgody, dlatego starają się to uniemożliwić.

User-agent: GPTBot
User-agent: ChatGPT-User
User-agent: Claude-Web
User-agent: ClaudeBot
User-agent: anthropic-ai
User-agent: cohere-ai
User-agent: Bytespider
User-agent: Google-Extended
User-agent: PerplexityBot
User-agent: Applebot-Extended
User-agent: Diffbot
Disallow: /

W tym przykładzie każdy bot ma przypisaną regułę, a komenda „Disallow: /” blokuje im dostęp do jakiejkolwiek części witryny.

Dzięki temu można uniknąć wykorzystywania Twoich treści do trenowania sztucznej inteligencji, a także zmniejszyć obciążenie serwera, minimalizując niepotrzebne skanowanie.

8. Dodanie adresu URL mapy witryny

Dodanie URL mapy witryny do pliku robots.txt pomaga wyszukiwarkom łatwiej znaleźć wszystkie istotne strony na Twojej stronie. Można dodać kilka map witryn, każdą na osobnej linii.

W przeciwieństwie do reguł Allow lub Disallow, które używają ścieżek względnych, dyrektywa Sitemap wymaga pełnego, absolutnego URL do określenia lokalizacji mapy witryny.

Sitemap: https://www.example.com/sitemap/articles.xml
Sitemap: https://www.example.com/sitemap/news.xml
Sitemap: https://www.example.com/sitemap/video.xml

9. Użycie dyrektywy Crawl-Delay

Dyrektywa crawl-delay w pliku robots.txt ustawia liczbę sekund, którą bot powinien poczekać, zanim zeskanuje kolejną stronę. Choć Googlebot nie obsługuje dyrektywy crawl-delay, inne boty mogą ją uwzględnić.

To pomaga uniknąć przeciążenia serwera, kontrolując częstotliwość skanowania.

Na przykład, jeśli chcesz, aby ClaudeBot skanował Twoje treści do treningu AI, ale jednocześnie nie chcesz przeciążać serwera, możesz ustawić opóźnienie między zapytaniami:

User-agent: ClaudeBot
Crawl-delay: 60

To polecenie oznacza, że ClaudeBot powinien poczekać 60 sekund między zapytaniami podczas skanowania strony.

Co do parametrów UTM?

Parametry UTM są używane do śledzenia ruchu na stronie.

Jak zauważył John Mueller w swoim wpisie na Reddit, nie należy martwić się o parametry URL prowadzące do Twoich stron z innych witryn.

Co do parametrów UTM? — John Mueller o parametrach UTM

Jednak należy zablokować wszelkie przypadkowe parametry wykorzystywane wewnątrz witryny i unikać linkowania wewnętrznego do takich stron. Na przykład, nie powinno się linkować z artykułów do stron wyszukiwania z parametrami typu https://www.example.com/?s=google.

Jak rozwiązać problemy z robots.txt

Po utworzeniu pliku robots.txt, ważne jest, aby sprawdzić jego poprawność składniową i upewnić się, że nie zablokowano ważnych URL, które chcesz, aby były skanowane przez roboty wyszukiwarek.

1. Walidator robots.txt w Google Search Console

Po zaktualizowaniu pliku robots.txt, należy upewnić się, że nie zawiera on błędów i nie blokuje URL, które chcesz, aby były skanowane przez roboty wyszukiwarek. Może to obejmować zasoby, obrazy lub poszczególne sekcje strony.

W Google Search Console znajduje się wbudowany walidator robots.txt, który umożliwia weryfikację pliku.

2. Parser robots.txt od Google

Jest to oficjalny parser Google, który jest dostępny w Google Search Console.

Wymaga on bardziej zaawansowanych umiejętności instalacji i uruchomienia na lokalnym komputerze, ale jego użycie jest bardzo zalecane, ponieważ pozwala sprawdzać zmiany w pliku robots.txt przed jego załadowaniem na serwer, zapewniając zgodność z oficjalnym parserem Google.

Centralne zarządzanie robots.txt

Każda domena i subdomena powinna mieć własny plik robots.txt, ponieważ Googlebot nie bierze pod uwagę pliku robots.txt z głównej domeny dla subdomen.

Stwarza to pewne trudności dla stron z wieloma subdomenami, ponieważ trzeba utrzymywać wiele oddzielnych plików robots.txt.

Możesz jednak umieścić plik robots.txt na subdomenie, na przykład https://cdn.example.com/robots.txt i ustawić przekierowanie z https://www.example.com/robots.txt na ten plik.

Również można zrobić odwrotnie – umieścić plik tylko w głównym katalogu domeny i ustawić przekierowanie z subdomen w kierunku głównej domeny.

Wyszukiwarki będą traktować przekierowany plik jakby znajdował się w głównym katalogu domeny, co umożliwia centralne zarządzanie regułami robots.txt dla głównej domeny i subdomen.

Podsumowanie

Poprawnie zoptymalizowany plik robots.txt jest kluczowy dla skutecznego zarządzania skanowaniem witryny. Pozwala to robotom wyszukiwarek, takim jak Googlebot, skupić się na ważnych stronach, zamiast marnować zasoby na mniej istotne.

Dodatkowo, blokowanie botów AI i scraperów za pomocą robots.txt może znacznie zmniejszyć obciążenie serwera i zaoszczędzić zasoby obliczeniowe.

Zawsze sprawdzaj zmiany w pliku, aby uniknąć niespodziewanych problemów ze skanowaniem.

Jednak chociaż blokowanie niepotrzebnych zasobów przez robots.txt może poprawić wydajność skanowania, głównymi czynnikami wpływającymi na budżet skanowania są jakościowe treści i szybkość ładowania stron.