Publisert i bloggen, lørdag 21. desember 2013:

Hva er robots.txt?

Roboter

Søkemotorer som Google, Yahoo! og Bing, ja egentlig alle søkemotorer, har en eller annen form for en robot som gjør jobben for de. En slik robot går gjerne under navnet «Bot».

Google har sin «Googlebot». Microsoft Bing har «bingbot». Yahoo! hadde tidligere «Yahoo! Slurp», men bruker nå «bingbot». Den tidligere norske søkemotoren Sesam hadde «schibstedsokbot».

Robot

Slike roboter surfer rundt på nettet, og hver gang de kommer over noe innhold blir det indeksert og lagt til i søkemotorene.

Selskap som Google opererer også med flere roboter som har hver sine oppgaver. Én robot kan jobbe med å indeksere innhold for selve søkemotoren, en annen kan indeksere bilder, en tredje kan indeksere innhold for mobil og en fjerde kan indeksere innhold med tanke på kontekstuell annonsering i AdSense (motparten til Adwords).

Et annet navn på en «bot» er «web crawler».

User-agent

En robot er egentlig en avansert form for en nettleser, og i likhet med alle nettlesere har den en user-agent som forteller hvem det er som farter rundt på nettet.

Jeg bruker i dette øyeblikk nettleseren Chrome, som har dette som sin «user-agent»:

Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36

Ut i fra dette kan man lese at jeg bruker Chrome versjon 31 i Windows 7. Det er denne informasjonen som benyttes av webanalyseverktøy som Google Analytics for å fortelle noe om hvilke nettlesere som besøker nettstedet ditt.

Googlebot kan ha noe som dette som sin «user-agent»:

Googlebot/2.1 (+http://www.google.com/bot.html)

robots.txt

Et nettsted kan gi nyttige instrukser til slike roboter via en enkel tekstfil ved navn «robots.txt» som ligger i roten på et nettsted.

Med roten menes det at den ligger på «øverste» nivå, altså eksempel.com/robots.txt.

I denne filen kan man angi hvilke undermapper og -sider som en «bot» får lov til å indeksere og ikke lov til å indeksere. Det er selvsagt ikke gitt at de faktisk ligger unna disse filene, så det er mer en oppfordring enn et fysisk sperre.

Her et enkelt eksempel på innholdet i en slik tekstfil:

User-Agent: *
Allow: /bloggen/
Disallow: /hemmeligmappe/

Her opplyses det om at instruksene gjelder for alle brukere, i praksis alle roboter, siden vanlige personer ikke bryr seg om hva som står i robots.txt.

Videre opplyses det at undermappen «bloggen» kan indekseres, men ikke undermappen «hemmeligmappe». Skråstreken på slutten angir at dette gjelder for alle videre undermapper og filer under disse mappene.

Hvis man ønsker å spesifisere forskjellige instrukser for forskjellige roboter kan dette gjøres slik:

User-Agent: *
Allow: /bloggen/
Disallow: /hemmeligmappe/
User-Agent: Googlebot
Disallow: /hemmeligforgoogle/

Her gjelder de samme reglene som i det forrige eksempelet, men i tillegg ønsker vi at Googlebot ikke skal indeksere undermappen «hemmeligforgoogle».

Nettkart

Man kan også angi hvor det eventuelt finnes et såkalt «nettkart», en liste over alt innholdet på nettstedet ditt. Det er ikke alltid alle roboter vil finne frem til alt innholdet ditt så lett, men med en slik oversikt gjør du jobben deres lettere.

Les mer om sitemap.xml her

En slik oversikt pleier vanligvis å plasseres i filen sitemap.xml, men det er ingen fastsatte regler for format eller plassering:

User-Agent: *
Allow: /bloggen/
Disallow: /hemmeligmappe/
Sitemap: http://eksempel.com/sitemap.xml

Ta gjerne en titt på robots.txt for dette nettstedet:
https://hardcode.no/robots.txt

Relatert innhold

Hva er sitemap.xml?
Din useragent (nettleserdetaljer)

Bloggen

Paid and organic last click
Are og Ida på date
Kunstig intelligens
Vekst- prosjektet
Da Outlook stjal ikonet mitt
Sen eller tidlig påske?
Koordinater i SVG
Påstand: Corner er mål
Vestfold-Rogaland kalkulator
Twitter og VM på ski
My New Year's Resolutions
Et bilde sier mer enn tusen ord
Rogaland blir nye Vestfold
På størrelse med Vestfold
Datoformat i Excel og Google Analytics
what3words Hvilke tre ord?
Covfefe will make America great again
Om domenenavn og firmanavn
Fotballfrue: Jeg tar innpå deg
Sakte-TV: Se gresset gro
Sakte-TV: Se maling tørke
Første generasjon iPapp har kommet
Jukselapp fotografering
Det sorte hullet cookies disabled
Høysesong for kjipe annonser
Om analsex og popups
Rotasjon av vindsymboler
Hvor mye er Fotballfrue verdt?
Slik tar du et screenshot
Nyttige husketrekanter
Enklere utregning med kryssmultiplisering
Min egen lille adventskalender
Logge antall likes på Facebook
Hva er sitemap.xml?
Hva er robots.txt?
Responsivt design
Webscraping med PHP
Jeg sammenligner epler og pærer
Scalable Vector Graphics
Google Analytics API: Hente data
Google Analytics API: Muligheter
HTML5: Video
Big Data
Cookies: Hvordan det brukes
Cookies: Hva er det?
Excel i to vinduer
CRM-systemet «Kontor»
Gigantisk timelapse
Hva er jQuery?
Overvåke ReadyNAS DUO med PHP
Favicon - ikonet i adressefeltet
Animert heading på hardcode.no
CSS -sprites
Komprimere PNG-bilder
Redesign av hardcode.no
Klikkbar flash uten clickTAG
Relevans har stor verdi
Alle har wide- screen i 2013
Markedsandeler nettlesere 2010
Internet Explorer-vindu i feil størrelse
Hvor stor er en piksel?
Markedsføring og kundelojalitet
Flash-versjoner
Vestre Sylling og Øverskogen JFF
Sidevisninger, besøk og brukere
Widescreen kommer
Hvor brede bør sidene være?
Fortsatt lese hele saken?
Lese hele saken nå?
Første møte med AdWords
Bort med IE6
Utviklingen på nettleserfronten
Nyttige jukselapper
Nye Sylling.no
Klær med egen logo?
Værdata fra yr.no
Logodesign trender i 2008
Gmail grimaser
Google Analytics
Publiseringssystemet Outpost
Hardcode.no relanseres
Publiserings -systemet