Hoe het Robots.txt-bestand te gebruiken voor SEO

Hoe Robot.txt SEO in te stellen

Wist je dat Robots.txt een van de belangrijkste dingen is in de SEO van je site? Wat is Robots.txt precies en hoe ga je het gebruiken voor SEO? We gaan ze hier in dit artikel uitleggen.

Wat is Robots.txt?

Er zijn bestanden in de hoofdmap van een website die de crawlers en spiders van zoekmachines vertellen welke pagina’s en bestanden ze moeten kunnen zien en welke niet. Webbeheerders willen vaak dat hun sites gevonden worden door zoekmachines, maar soms is dat niet nodig. Als u privégegevens bewaart of ruimte probeert te besparen, kunt u voorkomen dat de zoekmachine uw bestanden indexeert (met uitzondering van zware pagina’s met afbeeldingen).

Zoekmachines die trefwoorden en metadata gebruiken om webpagina’s te indexeren, tonen de meest relevante resultaten aan mensen die iets op internet zoeken. Het is belangrijker voor eigenaren van webwinkels om goede zoekresultaten te krijgen dan voor welk ander bedrijf dan ook om goede zoekresultaten te krijgen. Meestal komen mensen niet verder dan de eerste paar pagina’s met resultaten van de suggesties van een zoekmachine.

Indexeren gebeurt met behulp van spiders of crawlers, die zich verplaatsen. Zo krijgen en organiseren zoekmachines alle informatie op internet. Deze bedrijven gebruiken deze bots.

robots.txt is het bestand waar crawlers naar zoeken wanneer ze een website voor het eerst bezoeken. Zodra de crawler een bestand als dit vindt, zoekt hij daarin naar instructies om de site te indexeren. Er zijn geen instructies voor de bot die ze niet kan vinden, dus het gebruikt het algoritme van zijn werking om ernaar te zoeken. Dit zorgt ervoor dat veel mensen naar dingen op de website zoeken, maar het maakt het indexeringsproces ook minder effectief.

Om het robots.txt-bestand te laten werken, mag er maar één op de site staan. Een add-on-domeinnaam moet een robots.txt-bestand in de hoofdmap van zijn webpagina hebben. Het zou bijvoorbeeld op https://www.domain.com/robots.txt moeten staan, en het zou robots moeten vertellen om niet naar die site te gaan.

Robots.txt is ook belangrijk om ervoor te zorgen dat de naam van uw bestand robots txt wordt genoemd. Als de naam niet goed is gespeld, werkt het niet.

Krijg de controle

U heeft meer controle over de SEO van uw site dan u denkt.

In het algemeen is dit waar. U kunt op paginaniveau kiezen welke crawlers en indexeerders uw site kunnen zien en indexeren. Er is een bestand met de naam robots.txt dat kan worden gebruikt om ervoor te zorgen dat dit niet meer gebeurt. Er is een eenvoudig tekstbestand genaamd robots.txt in de hoofdmap van uw website. Dit bestand vertelt webrobots om uw website niet te lezen. Robots kunnen deze informatie gebruiken om hun zoekresultaten specifieker te maken.

Omdat het niet alles is, heb je ontdekt dat het een geweldige manier is om je website door zoekmachines te laten zien. Als u ervoor wilt zorgen dat zoekmachines uw site leuk vinden, moet u een goede eerste indruk maken. Op de juiste manier kan het gebruik van robots.txt helpen bij SEO.

Dus, hoe ga je ermee om? Wat heeft het voor zin dat deze persoon nog leeft? Wat moet je helemaal niet doen? De antwoorden op deze vragen staan op de volgende pagina.

De reden om Robots.txt te gebruiken

Robots.txt is een bestand dat zoekmachines gebruiken om erachter te komen welke pagina’s op uw site moeten worden geïndexeerd en welke buiten de zoekresultaten moeten worden gehouden. Als u bijvoorbeeld in uw Robots.txt-bestand zegt dat uw bedankpagina niet beschikbaar zou moeten zijn voor zoekmachines, wordt deze pagina niet weergegeven in de zoekresultaten en is deze niet toegankelijk voor mensen die ernaar zoeken op internet. Sommige pagina’s van uw site moeten worden verborgen voor zoekmachines voor zowel de privacy als de rangschikking van zoekmachines. Dit is voor beiden van belang.

Waar kunt u uw Robots-bestand vinden?

Als je een website hebt, staat het robots.txt-bestand in de hoofdmap van je site. Voer uw FTP-cPanel in en zoek het op in het openbare HTML-gedeelte van uw account.

Deze bestanden nemen niet veel ruimte in beslag. Ze zijn misschien maar een paar honderd bytes.

Als je er geen kunt vinden, moet je er een maken.

Hoe Robots.txt werkt

Wanneer zoekmachines uw site willen indexeren, sturen ze kleine programma’s genaamd “spinnen” of “robots” die over uw site kruipen en gegevens terugsturen naar de zoekmachines. Robots.txt “Disallow”-richtlijnen instrueren zoekmachines en andere programma’s om bepaalde pagina’s op uw website die u in de opdracht opgeeft, niet te zoeken. De volgende commando’s zijn te vinden in het robots.txt-bestand:

User-agent: *

disallow: /bedankt

…voorkomt dat alle robots van zoekmachines toegang krijgen tot de volgende pagina op uw site:

http://www.uwsite.com/thankyou

Voor het disallow-commando staat het commando:

User-agent: *

Het gedeelte “User-agent:” geeft aan welke robot u wilt verbieden.

User-agent: Googlebot

Deze opdracht zou alleen voorkomen dat de Google-robots toegang krijgen tot de website; andere robots zouden er nog steeds toegang toe hebben:

http://www.uwsite.com/thankyou

Door echter het “*”-teken te gebruiken, geeft u aan dat de onderstaande opdrachten naar alle robots verwijzen. Uw robots.txt-bestand zou zich in de hoofdmap van uw site bevinden. Bijvoorbeeld:

http://www.uwsite.com/robots.txt

Een Robots.txt-bestand samenstellen

Iedereen kan dit bestand van eenvoudige tekst maken. Je hebt een teksteditor zoals Kladblok nodig om je tekst te schrijven. Open een nieuw tekstbestand en sla het op als “robots.txt”, typ het vervolgens in.

Als je in je cPanel bent, ga je naar de openbare HTML-map en klik je erop. Begin door ervoor te zorgen dat het bestand er al is.

Als alles er goed uitziet, ben je klaar. Alleen de persoon die eigenaar is van het bestand moet het kunnen zien en wijzigen.

Om het bestand te laten werken, moet het de toestemming “0644” hebben.

Als dat niet het geval is, klikt u met de rechtermuisknop op het bestand en kiest u ‘permissies wijzigen’.

Daar heb je het!

Er is een bestand genaamd robots.txt met instructies voor robots.

Robots.txt-syntaxis

Het robots.txt-bestand heeft meerdere secties met “richtlijnen” voor elke user-agent die is ingesteld. Elk begint met de naam van de user-agent. Elke crawlbot wordt geïdentificeerd door zijn user-agent-ID volgens de code.

Er zijn twee manieren om dit te doen:

Zolang u een wildcard gebruikt, kunt u alle zoekmachines tegelijk targeten.

U kunt kiezen op welke zoekmachines u zich wilt richten.

Wanneer u een crawlbot start, gaat deze naar de delen van de website die er het minst blij mee zijn.

Het zal als volgt gaan:

Wat is Robots.txt? Waar vindt u uw Robots.txt-bestand? Ontdek hier het antwoord en leer hoe dit uw SEO kan verbeteren.

User-Agent-richtlijn

De eerste paar regels van elk blok bevatten de user-agent, die een bot identificeert. Dus bijvoorbeeld:

User-Agent Directive

Als u bijvoorbeeld een Googlebot wilt vertellen wat hij moet doen, begint u met:

User-agent: Googlebot

Zoekmachines zijn in de regel op zoek naar de meest relevante informatie.

Zolang je een Googlebot-Video en een Bingbot-richtlijn hebt. De ‘Bingbot’ user-agent doet wat hij zegt. U mag meer nauwkeurige instructies verwachten van Googlebot-Video.

Hieronder vindt u de meest gebruikte zoekmachine-robots.

Disallow-richtlijn

Bots hebben geen toegang tot bepaalde delen van uw site als u deze functie inschakelt. Niets belet de bots om op internet te reizen en toegang te krijgen tot websites die ze leuk vinden.

Sitemaprichtlijn (XML-sitemaps)

Deze metatag vertelt zoekmachines waar uw sitemap zich bevindt.

U moet ze naar de webmasterhulpprogramma’s van de zoekmachines sturen om gevonden te worden. Het zou helpen als u elk van deze tools zou gebruiken, omdat ze u veel over uw website kunnen leren.

Als snelheid belangrijk is, gebruik dan de richtlijn genaamd ‘sitemap’.

Richtlijn crawlvertraging

Als je Yahoo, Bing en Yandex een beetje wilt vertragen wanneer ze crawlen, kun je een richtlijn invoeren met de naam ‘crawl-delay’.

Het volgende zal gebeuren als je deze regel in je blok plaatst:

Kruipvertraging: 10

Wacht tien seconden voordat je gaat kruipen.

Wanneer een zoekmachine is ingesteld, kan deze worden ingesteld om tien seconden te wachten voordat een site wordt gecrawld of tien seconden voordat deze na een crawl terugkeert naar een site. Het effect is bijna hetzelfde, maar iets anders, afhankelijk van welke zoekmachine wordt gebruikt. Na een crawl betekent een crawlvertraging van 1 dat zoekmachines de site meteen beginnen te crawlen.

Google Webmaster Tools gebruiken om Robots.txt te maken

Selecteer ‘crawlertoegang’ in de menubalk om snel een robots.txt-bestand te maken met een gratis Google Webmaster Tools-account. Om een ​​basis Robots.txt-bestand te maken, kiest u “genereer robots.txt” wanneer u op de site komt.

Kies onder ‘actie’ voor ‘blokkeren’ en onder ‘User-agent’ welke robots u niet op uw website wilt zien. Kies “directories en bestanden” en typ de namen in van de mappen die je buiten bereik wilt houden. “http://www.uwsite.com” mag op geen enkele manier deel uitmaken van deze strategie.” Als u bijvoorbeeld niet wilt dat mensen de onderstaande pagina’s kunnen zien, kunt u:

http://www.uwsite.com/thank-you

http://www.uwsite.com/free-stuff

http://www.uwsite.com/private

Voer in Google Webmaster Tools het volgende in het veld “directories en bestanden” in:/thank-you

/gratis spullen

/private

Nadat je deze voor alle robots hebt ingevoerd en op “regel toevoegen” hebt gedrukt, ziet het uiteindelijke Robots.txt-bestand er als volgt uit.

User-agent: *

Niet toestaan: /private

Niet toestaan: /thank-you

Toestaan: /

Er is een standaardopdracht “Toestaan” als je een uitzondering wilt maken en een robot toegang wilt geven tot een website die je met een opdracht hebt geblokkeerd.

User-agent: *

Niet toestaan: /afbeeldingen/

Door het commando te plaatsen:

Toestaan: /Googlebot

De Googlebot kan alleen naar de fotomap van uw site gaan als het ban-commando ernaast wordt geplaatst. Klik vervolgens op “downloaden” om uw Robots.txt-bestand op te halen. Klik op “downloaden” als je de pagina’s en bestanden hebt gekozen die je wilt blokkeren, klik op “downloaden”.

Installeer uw Robots.txt-bestand

Een bestand met de naam “Robots.txt” kan nu worden toegevoegd aan de hoofdmap (www) van het CNC-gebied van uw website. Dit betekent dat het nu te vinden is. Filezilla is hiervoor een goede FTP-client. Laat uw robots.txt-bestand maken door een webprogrammeur nadat u hen een lijst met URL’s heeft gegeven die moeten worden geblokkeerd om te worden gecrawld. Dit is een extra optie. In dit geval zal een ervaren webontwikkelaar de klus in minder dan een uur klaren.

Noindex vs. Disallow

Veel mensen weten niet welke regel ze moeten gebruiken in het robots.txt-bestand van uw website in de navigatiebalk. Dit komt omdat de redenen die in de vorige sectie zijn gegeven ervoor zorgen dat Robots.txt geen indexregels niet langer werken.

Uw website heeft mogelijk een “noindex”-metatag die u kunt gebruiken om te voorkomen dat zoekmachines een van uw webpagina’s indexeren. In de regel laat deze tag webrobots uw site bezoeken, maar het zal ook zoekmachines vertellen om uw pagina niet te indexeren.

Het is op de lange termijn misschien niet zo effectief als de noindex-tag. De regel voor niet toestaan is mogelijk niet zo effectief als deze tag. Dit is goed omdat robots.txt ervoor zorgt dat zoekmachines uw pagina niet kunnen scannen. Het weerhoudt hen er niet van om uw pagina te indexeren op basis van informatie van andere pagina’s en websites, wat goed is.

Het is belangrijk om te onthouden dat zelfs als u een noindex-tag uitschakelt en aan een pagina toevoegt, robots de tag niet weten en de pagina mogelijk blijven indexeren, zelfs als u dat wel doet.

Fouten die je wilt vermijden

Je hebt geleerd over de vele dingen die je kunt doen met je robots.txt-bestand en hoe je het kunt gebruiken. In dit deel gaan we dieper in op elk probleem en laten we zien hoe het, als het verkeerd wordt gebruikt, een slecht effect kan hebben op SEO.

U kunt een robots.txt-bestand of een “noindex”-tag niet gebruiken om te voorkomen dat mensen nuttige informatie te zien krijgen die u openbaar wilt maken. In het verleden hebben we veel van dit soort dingen zien gebeuren met SEO. Allemaal hebben ze een slecht effect gehad op de resultaten. Het is belangrijk om ervoor te zorgen dat al uw webpagina’s noindex- en noblock-tags en -regels hebben voordat ze live gaan.

Als u crawlvertragingsrichtlijnen gebruikt, moet u deze niet te vaak gebruiken. Dit komt omdat ze het aantal pagina’s dat bots kunnen bekijken, beperken. Aan de andere kant kan het hebben van een grote website het voor u moeilijker maken om een ​​hoge ranking te krijgen en veel bezoekers te krijgen.

Om ervoor te zorgen dat het bestand van uw robot correct wordt gelezen, moet u het juiste Robots.txt-formaat voor uw bestand gebruiken. Alle letters moeten kleine letters zijn als ze in het bestand van de robot staan. Het zou “robots.txt” moeten heten. Het kan niet werken als het niet werkt.

Sluiten – Test uw robots.TXT

Uw bestand moet nu worden gecontroleerd om er zeker van te zijn dat het goed werkt.

Er is een robots.txt-testbox die je kunt gebruiken in Google Webmaster Tools, maar alleen als je de oude Google Search Console hebt gebruikt, die niet meer wordt gebruikt. De robots.txt-tester werkt niet meer vanwege de meest recente GSC (Google werkt hard aan het toevoegen van nieuwe functies aan GSC, dus misschien zullen we in de toekomst de Robots.txt-tester in de hoofdnavigatie kunnen zien).

Als je meer wilt weten over wat de Robots.txt-tester kan doen, ga dan naar de helppagina van Google.

Er is nog een ander handig hulpmiddel:

Closing - Test Your RobotsKies een project uit het rechter drop-down menu. U kunt bijvoorbeeld voor uw bedrijf of een ander project aan de website werken.

Om het oude robots.txt-bestand te vervangen door het bestand dat je zojuist hebt gemaakt, moet je eerst alles uit de doos halen. Klik op ‘Test’ om een test te starten.

De waarde van “Test” moet worden gewijzigd in “Toegestaan”. Dit zorgt ervoor dat uw robots.txt-bestand goed werkt.

Door ervoor te zorgen dat uw robots.txt-bestand correct is, kunt u tegelijkertijd de prestaties van uw zoekmachine en de gebruikerservaring van uw bezoekers verbeteren.

Het is gemakkelijker voor u om te bepalen wat mensen zien wanneer ze naar dingen op uw site zoeken als robots hun dagen kunnen besteden aan het zoeken en indexeren ervan.