In dit artikel leggen we uit wat een robots.txt bestand is en hoe je het optimaal kunt gebruiken voor je website.

Definitie robots.txt

Een robots.txt file is een klein bestandje waarin instructies staan voor zoekmachine crawlers, ook wel robots genoemd. In dit bestand kun je robots verbieden om bepaalde pagina’s of URLs van je website te bezoeken of te “crawlen”. Hierdoor zullen deze pagina’s niet vindbaar worden in de zoekmachines. De bekendste robot is zonder twijfel de “GoogleBot” van Google.

Het robots.txt bestand is een belangrijk onderdeel van je technische SEO optimalisatie voor je website. Vaak heeft een site te maken met indexatie problemen omdat dit kleine bestandje fouten bevat.

Locatie

Het robots.txt bestand moet aanwezig zijn in de root van je website, dit wordt altijd als eerste bezocht door zoekmachine-crawlers. Ons bestand kun je hier raadplegen: https://depends.be/robots.txt

Verschillende onderdelen

Een robots.txt file bestaat uit verschillende onderdelen:

User-agent

Dit geeft aan welke robot je website mag indexeren of crawlen (en welke niet). Zoals ik eerder aal aanhaalde in de intro, is “GoogleBot” de bekendste crawler.

De richtlijnen in dit bestand kunnen van toepassing zijn voor specifieke user-agents, maar ze kunnen ook gericht zijn aan alle user-agents. In dit laatste geval nemen we dit zo op in de robots.txt: User-agent: *.

Als een regel in de het .txt bestand begint met User-agent: *, dan betekend dit dat vanaf hier alle zoekmachine robots zich aan de regels eronder moeten houden.

Disallow

Met een “disallow” geef je duidelijk aan dat je bepaalde pagina’s niet wil laten indexeren. Enkele voorbeelden.

Volledige website indexeren

In dit voorbeeld geef je aan dat de bots de volledige website mogen indexeren.

User-agent: *
Disallow: 

Volledige site uitsluiten

In dit voorbeeld geef je aan dat de volledige site mag uitgesloten worden van indexering.

User-agent: *
Disallow: /

Bepaalde pagina’s of folders blokkeren

In dit voorbeeld geef je aan dat je bepaalde pagina’s of folders wil blokkeren van indexatie.

User-agent: *
Disallow: /nieuws/
Disallow: /producten/

Allow

Met de richtlijn “Allow” geef je duidelijk aan welke pagina’s wel te crawlen.

Crawl-delay

Met deze richtlijn geef je aan de pagina’s te crawlen na enkele seconden. Hierdoor vertraag je de User-agent een beetje waardoor servers niet overbelast worden.

Google ondersteund deze richtlijn niet, Bing, Yahoo en Yandex wel. De crawlsnelheid voor Google kan je echter wel instellen in Google Search Console.

Bing, Yahoo en Yandex ondersteunen deze richtlijn dus wel. Plaats Crawl-delay direct na de Disallow of Allow richtlijnen.

Sitemap

Dit is de locatie van je sitemap. Voeg deze altijd toe aan het robots.txt bestand. Zo kunnen zoekmachines het crawlbudget efficiënter gebruiken. Dit kan een positief effect hebben op de rankings van je website.

De XML sitemap toevoegen doe je zo:

Sitemap: https://depends.be/sitemap_index.xml

Noindex

Sommige websites raden aan om noindex op te nemen in de robots.txt. Dit is echter geen officiële standaard, daarnaast heeft ook John Mueller (Google) aangegeven om dit niet te doen.

Commentaar

Wil je commentaar of een leuke boodschap toevoegen aan je robots.txt file? Dan kan dit met behulp van een # (hashtag). Onderstaand voorbeeld is van Nike. Ze pakken het heel creatief aan door hun robots.txt te pimpen met de alom bekende ‘Swoosh’. Vaak worden ook technische vacatures toegevoegd aan dit bestand, zoals bijvoorbeeld een vacature van SEO specialist.

#                                                                                                    
#                 ``                                                                        ```.`    
#               `+/                                                                 ``.-/+o+:-.      
#             `/mo                                                          ``.-:+syhdhs/-`          
#            -hMd                                                    `..:+oyhmNNmds/-`               
#          `oNMM/                                            ``.-/oyhdmMMMMNdy+:.                    
#         .hMMMM-                                     `.-/+shdmNMMMMMMNdy+:.                         
#        :mMMMMM+                             `.-:+sydmNMMMMMMMMMNmho:.`                             
#       :NMMMMMMN:                    `.-:/oyhmmNMMMMMMMMMMMNmho:.`                                  
#      .NMMMMMMMMNy:`          `.-/oshdmNMMMMMMMMMMMMMMMmhs/-`                                       
#      hMMMMMMMMMMMMmhysooosyhdmNMMMMMMMMMMMMMMMMMMmds/-`                                            
#     .MMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMNdy+-.`                                                
#     -MMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMNdy+-.`                                                     
#     `NMMMMMMMMMMMMMMMMMMMMMMMMMMMMMmyo:.`                                                          
#      /NMMMMMMMMMMMMMMMMMMMMMMMmho:.`                                                               
#       .yNMMMMMMMMMMMMMMMMmhs/.`                                                                    
#         ./shdmNNmmdhyo/-``                                                                         
#              `````                 
User-agent: *
Allow: /

Testen

Missen is menselijk. Het is dus mogelijk dat er bepaalde fouten in je robots.txt bestaand staan. Je kunt jouw robots.txt op fouten testen in het Google Search Console testing tool.