Semalt: Hoe Darodar Robots.txt te blokkeren

Robots.txt-bestand is een typisch tekstbestand dat instructies bevat over hoe webcrawlers of bots een site moeten crawlen. Hun toepassing is duidelijk in zoekmachinebots die veel voorkomen in tal van geoptimaliseerde websites. Als onderdeel van het Robots Exclusion Protocol (REP) vormt het robots.txt-bestand een essentieel aspect van het indexeren van website-inhoud en stelt het een server in staat gebruikersverzoeken dienovereenkomstig te verifiëren.

Julia Vashneva, de Senior Customer Success Manager van Semalt , legt uit dat linken een aspect is van Search Engine Optimization (SEO), wat inhoudt dat u verkeer binnenhaalt van andere domeinen binnen uw niche. Voor de "volg" -links om link-sap over te dragen, is het essentieel om een robots.txt-bestand op te nemen op de hostingruimte van uw website om op te treden als instructeur over hoe de server met uw site omgaat. Vanuit dit archief zijn de instructies aanwezig door toe te staan of niet toe te staan hoe bepaalde specifieke user-agents zich gedragen.

Het basisformaat van een robots.txt-bestand

Een robots.txt-bestand bevat twee essentiële regels:

User-agent: [naam user-agent]

Niet toestaan: [URL-tekenreeks mag niet worden gecrawld]

Een compleet robots.txt-bestand moet deze twee regels bevatten. Sommige ervan kunnen echter meerdere regels user-agents en richtlijnen bevatten. Deze opdrachten kunnen aspecten bevatten zoals toestaan, weigeren of crawlvertragingen. Er is meestal een regeleinde die elke instructieset scheidt. Elke instructie voor toestaan of weigeren wordt gescheiden door deze regeleinde, vooral voor de robots.txt met meerdere regels.

Voorbeelden

Een robots.txt-bestand kan bijvoorbeeld codes bevatten zoals:

User-agent: darodar

Disallow: / plugin

Disallow: / API

Disallow: / _comments

In dit geval is dit een blok-robots.txt-bestand dat de Darodar-webcrawler belemmert om toegang te krijgen tot uw website. In de bovenstaande syntaxis blokkeert de code aspecten van de website, zoals plug-ins, API en het opmerkingengedeelte. Met deze kennis is het mogelijk om tal van voordelen te behalen door het effectief uitvoeren van het tekstbestand van een robot. Robots.txt-bestanden kunnen tal van functies uitvoeren. Ze kunnen bijvoorbeeld klaar zijn om:

1. Sta alle inhoud van webcrawlers toe aan een webpagina. Bijvoorbeeld;

User-agent: *

Niet toestaan:

In dit geval is alle gebruikersinhoud toegankelijk voor elke webcrawler die wordt gevraagd om naar een website te gaan.

2. Blokkeer een specifieke webcontent uit een specifieke map. Bijvoorbeeld;

User-agent: Googlebot

Disallow: / example-submap /

Deze syntaxis met de naam van de user-agent Googlebot behoort tot Google. Het beperkt de bot om toegang te krijgen tot een webpagina in de string www.ourexample.com/example-subfolder/.

3. Blokkeer een specifieke webcrawler vanaf een specifieke webpagina. Bijvoorbeeld;

User-agent: Bingbot

Disallow: /example-subfolder/blocked-page.html

De user-agent Bing-bot behoort tot Bing-webcrawlers. Dit type robots.txt-bestand verhindert dat de Bing-webcrawler toegang krijgt tot een specifieke pagina met de tekenreeks www.ourexample.com/example-subfolder/blocked-page.

Belangrijke informatie

  • Niet elke gebruiker gebruikt uw robts.txt-bestand. Sommige gebruikers besluiten het te negeren. De meeste van dergelijke webcrawlers bevatten Trojaanse paarden en malware.
  • Om een Robots.txt-bestand zichtbaar te maken, moet het beschikbaar zijn in de top-level website directory.
  • De karakters "robots.txt" zijn hoofdlettergevoelig. Als gevolg hiervan mag u ze op geen enkele manier wijzigen, inclusief hoofdletters van sommige aspecten.
  • De "/robots.txt" is openbaar domein. Iedereen kan deze informatie vinden door deze toe te voegen aan de inhoud van een URL. U mag geen essentiële details of pagina's indexeren waarvan u wilt dat ze privé blijven.