Rechts robots.txt

Bestand robots.txt het belangrijkste bestand dat beschrijft de verwerking van de regels van pagina ' s van de zoekmachines. Dit bestand is nodig voor het opgeven van de primaire naam van de site, site map (sitemap.xml), publieke en private gedeelten van de website.
Bestand robots.txt bevat de volgende richtlijnen:

  • De User-agent-Richtlijn geeft aan wat de robot de volgende regels
    • * - alle robots
    • Yandex — belangrijkste robot Yandex
    • Googlebot — Googlebot is de belangrijkste
    • StackRambler — de zoekmachine Rambler
    • Aport — Aport zoekmachine
    • Slurp is Yahoo de robot
    • MSNBot is de MSN-robot
  • Verbied de Richtlijn is het verbod deel van de site
  • Toestaan — Richtlijn toelaat deel van de website
  • Host — Richtlijn stel de primaire naam van de site
  • Sitemap— Richtlijn begeleiding van een site map (sitemap.xml)
  • Crawl-delay-Richtlijn geeft aan hoeveel seconden kan de robot wacht op een reactie van de website (vereist voor zwaar geladen bronnen, zodat de robot niet van mening dat de site niet beschikbaar is)
  • Schoon-param Richtlijn is het beschrijven van de dynamische parameters hebben geen invloed op de inhoud van de website

Помимо директив в robots.txt используются спец символы:

  • * - lubi (inclusief leeg) sequentie van tekens
  • $ — is een beperking van de regels

Om te compileren robots.txt gebruik de bovenstaande richtlijnen en gezongen door de tekens als volgt:

  • Hiermee geeft u de naam van de robot die is geschreven een lijst van regels
    (User-agent: * - de regel voor alle robots)
  • Spreuk een lijst van verboden delen van de site voor de opgegeven robot
    ( Disallow: / - voorkomen dat de indexering van de hele site)
  • Spreuk van een lijst van toegestane secties van de site
    (Toestaan: /home/ — partitie huis toegestaan)
  • Hiermee geeft u de naam van de website
    (Host: crazysquirrel.ru — de belangrijkste naam van de site crazysquirrel.ru)
  • Hiermee geeft u het absolute pad naar het bestand sitemap.xml
    (Sitemap: https:// crazysquirrel.ru/sitemap.xml)

Als de site geen onrechtmatige onderwerpen, robots.txt moet ten minste 4 lijnen:

User-Agent: *
Toestaan: /
Host: crazysquirrel.ru
Sitemap: https://crazysquirrel.ru/sitemap.xml

Check robots.txt en hoe beïnvloedt het indexeren van de website door het gebruik van tools Yandex

Bekijk en opmerkingen