Hva er robots.txt?

Roboter

Søkemotorer som Google, Yahoo! og Bing, ja egentlig alle søkemotorer, har en eller annen form for en robot som gjør jobben for de. En slik robot går gjerne under navnet «Bot».

Google har sin «Googlebot». Microsoft Bing har «bingbot». Yahoo! hadde tidligere «Yahoo! Slurp», men bruker nå «bingbot». Den tidligere norske søkemotoren Sesam hadde «schibstedsokbot».

Slike roboter surfer rundt på nettet, og hver gang de kommer over noe innhold blir det indeksert og lagt til i søkemotorene.

Selskap som Google opererer også med flere roboter som har hver sine oppgaver. Én robot kan jobbe med å indeksere innhold for selve søkemotoren, en annen kan indeksere bilder, en tredje kan indeksere innhold for mobil og en fjerde kan indeksere innhold med tanke på kontekstuell annonsering i AdSense (motparten til Adwords).

Et annet navn på en «bot» er «web crawler».

User-agent

En robot er egentlig en avansert form for en nettleser, og i likhet med alle nettlesere har den en «user-agent» som forteller hvem det er som farter rundt på nettet.

Jeg bruker i dette øyeblikk nettleseren Chrome, som har dette som sin «user-agent»:

Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36

Ut i fra dette kan man lese at jeg bruker Chrome versjon 31 i Windows 7. Det er denne informasjonen som benyttes av webanalyseverktøy som Google Analytics for å fortelle noe om hvilke nettlesere som besøker nettstedet ditt.

Googlebot kan ha noe som dette som sin «user-agent»:

Googlebot/2.1 (+http://www.google.com/bot.html)

robots.txt

Et nettsted kan gi nyttige instrukser til slike roboter via en enkel tekstfil ved navn «robots.txt» som ligger i roten på et nettsted.

Med roten menes det at den ligger på «øverste» nivå, altså eksempel.com/robots.txt.

I denne filen kan man angi hvilke undermapper og -sider som en «bot» får lov til å indeksere og ikke lov til å indeksere. Det er selvsagt ikke gitt at de faktisk ligger unna disse filene, så det er mer en oppfordring enn et fysisk sperre.

Her et enkelt eksempel på innholdet i en slik tekstfil:

User-Agent: *
Allow: /bloggen/
Disallow: /hemmeligmappe/

Her opplyses det om at instruksene gjelder for alle brukere, i praksis alle roboter, siden vanlige personer ikke bryr seg om hva som står i robots.txt.

Videre opplyses det at undermappen «bloggen» kan indekseres, men ikke undermappen «hemmeligmappe». Skråstreken på slutten angir at dette gjelder for alle videre undermapper og filer under disse mappene.

Hvis man ønsker å spesifisere forskjellige instrukser for forskjellige roboter kan dette gjøres slik:

User-Agent: *
Allow: /bloggen/
Disallow: /hemmeligmappe/
User-Agent: Googlebot
Disallow: /hemmeligforgoogle/

Her gjelder de samme reglene som i det forrige eksempelet, men i tillegg ønsker vi at Googlebot ikke skal indeksere undermappen «hemmeligforgoogle».

Nettkart

Man kan også angi hvor det eventuelt finnes et såkalt «nettkart», en liste over alt innholdet på nettstedet ditt. Det er ikke alltid alle roboter vil finne frem til alt innholdet ditt så lett, men med en slik oversikt gjør du jobben deres lettere.

Les mer om sitemap.xml her

En slik oversikt pleier vanligvis å plasseres i filen sitemap.xml, men det er ingen fastsatte regler for format eller plassering:

User-Agent: *
Allow: /bloggen/
Disallow: /hemmeligmappe/
Sitemap: http://eksempel.com/sitemap.xml

Ta gjerne en titt på robots.txt for dette nettstedet:
http://hardcode.no/robots.txt

Svend Asbjørn Sylling, 21. desember 2013

Bloggen fra Sylling Hardcode