In dit artikel leggen we uit wat een robots.txt bestand is en hoe je het optimaal kunt gebruiken voor je website.
Definitie robots.txt
Een robots.txt file is een klein bestandje waarin instructies staan voor zoekmachine crawlers, ook wel robots genoemd. In dit bestand kun je robots verbieden om bepaalde pagina’s of URLs van je website te bezoeken of te “crawlen”. Hierdoor zullen deze pagina’s niet vindbaar worden in de zoekmachines. De bekendste robot is zonder twijfel de “GoogleBot” van Google.
Het robots.txt bestand is een belangrijk onderdeel van je technische SEO optimalisatie voor je website. Vaak heeft een site te maken met indexatie problemen omdat dit kleine bestandje fouten bevat. Zeker als je een grote website hebt zoals een e-commerce bedrijf, is het belangrijk om goede instructies mee te geven aan GoogleBot over wat er wel en niet gecrawld mag worden.
Locatie
Het robots.txt bestand moet aanwezig zijn in de root van je website, dit wordt altijd als eerste bezocht door zoekmachine-crawlers. Ons bestand kun je hier raadplegen: https://depends.be/robots.txt
Verschillende onderdelen
Een robots.txt file bestaat uit verschillende onderdelen:
User-agent
Dit geeft aan welke robot je website mag indexeren of crawlen (en welke niet). Zoals ik eerder aal aanhaalde in de intro, is “GoogleBot” de bekendste crawler.
De richtlijnen in dit bestand kunnen van toepassing zijn voor specifieke user-agents, maar ze kunnen ook gericht zijn aan alle user-agents. In dit laatste geval nemen we dit zo op in de robots.txt: User-agent: *.
Als een regel in de het .txt bestand begint met User-agent: *, dan betekend dit dat vanaf hier alle zoekmachine robots zich aan de regels eronder moeten houden.
Disallow
Met een “disallow” geef je duidelijk aan dat je bepaalde pagina’s niet wil laten indexeren. Enkele voorbeelden.
Volledige website indexeren
In dit voorbeeld geef je aan dat de bots de volledige website mogen indexeren.
User-agent: *
Disallow:
Volledige site uitsluiten
In dit voorbeeld geef je aan dat de volledige site mag uitgesloten worden van indexering.
User-agent: *
Disallow: /
Bepaalde pagina’s of folders blokkeren
In dit voorbeeld geef je aan dat je bepaalde pagina’s of folders wil blokkeren van indexatie.
User-agent: *
Disallow: /nieuws/
Disallow: /producten/
Allow
Met de richtlijn “Allow” geef je duidelijk aan welke pagina’s wel te crawlen.
Crawl-delay
Met deze richtlijn geef je aan de pagina’s te crawlen na enkele seconden. Hierdoor vertraag je de User-agent een beetje waardoor servers niet overbelast worden.
Google ondersteund deze richtlijn niet, Bing, Yahoo en Yandex wel. De crawlsnelheid voor Google kan je echter wel instellen in Google Search Console.
Bing, Yahoo en Yandex ondersteunen deze richtlijn dus wel. Plaats Crawl-delay direct na de Disallow of Allow richtlijnen.
Sitemap
Dit is de locatie van je sitemap. Voeg deze altijd toe aan het robots.txt bestand. Zo kunnen zoekmachines het crawlbudget efficiënter gebruiken. Dit kan een positief effect hebben op de rankings van je website.
De XML sitemap toevoegen doe je zo:
Sitemap: https://depends.be/sitemap_index.xml
Noindex
Sommige websites raden aan om noindex op te nemen in de robots.txt. Dit is echter geen officiële standaard, daarnaast heeft ook John Mueller (Google) aangegeven om dit niet te doen.
Commentaar
Wil je commentaar of een leuke boodschap toevoegen aan je robots.txt file? Dan kan dit met behulp van een # (hashtag). Onderstaand voorbeeld is van Nike. Ze pakken het heel creatief aan door hun robots.txt te pimpen met de alom bekende ‘Swoosh’. Vaak worden ook technische vacatures toegevoegd aan dit bestand, zoals bijvoorbeeld een vacature van SEO specialist.
#
# `` ```.`
# `+/ ``.-/+o+:-.
# `/mo ``.-:+syhdhs/-`
# -hMd `..:+oyhmNNmds/-`
# `oNMM/ ``.-/oyhdmMMMMNdy+:.
# .hMMMM- `.-/+shdmNMMMMMMNdy+:.
# :mMMMMM+ `.-:+sydmNMMMMMMMMMNmho:.`
# :NMMMMMMN: `.-:/oyhmmNMMMMMMMMMMMNmho:.`
# .NMMMMMMMMNy:` `.-/oshdmNMMMMMMMMMMMMMMMmhs/-`
# hMMMMMMMMMMMMmhysooosyhdmNMMMMMMMMMMMMMMMMMMmds/-`
# .MMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMNdy+-.`
# -MMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMNdy+-.`
# `NMMMMMMMMMMMMMMMMMMMMMMMMMMMMMmyo:.`
# /NMMMMMMMMMMMMMMMMMMMMMMMmho:.`
# .yNMMMMMMMMMMMMMMMMmhs/.`
# ./shdmNNmmdhyo/-``
# `````
User-agent: *
Allow: /
Robots.txt checker
Missen is menselijk. Het is dus mogelijk dat er bepaalde fouten in je robots.txt bestaand staan. Je kunt jouw robots.txt op fouten checken en testen in het Google Search Console testing tool. Heel wat bedrijven, zoals Merkle, hebben ook een eigen robots.txt-checker ontwikkeld.
De fout niet gevonden? Dan kan je een SEO specialist inhuren om deze te analyseren.