Robots.txt

E-bud

Medlem
Kort fortalt så brukes robot.txt filen til å gi instruksjoner til hva webcrawlere/søkeroboter skal ha tilgang til og hva de ikke skal ha tilgang til (hva som skal indekseres/ikke indekseres)
Denne filen er ikke noe som ligger automatisk på alle servere og er evt. noe man må opprette på egenhånd. Dersom du vil at søkemotorene skal ha tilgang til alt på siden din, så ser en robot.txt fil ut slik:

Kode:
User-agent: *
Disallow:
Dersom du skal la alle roboter ha tilgang til alt, er det ingen vits i å lage en fil med det står angitt over, for så lenge ikke det ligger en robots.txt fil med begrensninger, så antar alle "roboter" at de har tilgang til alt.

Du finner det meste du trenger å vite her: The Web Robots Pages
 

M.B

Medlem
På min robot.txt fil står det:
User-agent: * Disallow: Sitemap: http://www.(minside.net)/sitemap.xml.gz

Betyr det at den ikke lar robotene til å "crawle" igjennom sitemapen min eller betyr det at den kan "crawle" alt?? Og den bare sier ifra hvor min sitemap ligger??

på forhånd takk
 

clinton4

Medlem
Bare litt tilleggs info, det er ikke alle søkemotorer som respekterer regler satt i robots.txt
 

Jannis

Medlem
Jeg har følgende på min side, hva sier det egentlig?

<META NAME="ROBOTS" CONTENT="index, follow">
<META NAME="REVISIT-AFTER" CONTENT="1 Week">

1. Gjør ingenting. Hvis du kutter ut <meta name="robots"> vil det bety det samme som <META NAME="ROBOTS" CONTENT="index, follow">.
The Web Robots Pages

2. Den gjør ingenting med Google, men noen andre mindre roboter kan kanskje lese den.
meta name revisit-after - Google-søk
Merk at den ikke betyr "Kom tilbake om en uke!" men "Hvis det ikke er en uke siden sist besøk, stikk!". Med andre ord garanterer du ikke at den kommer tilbake etter en uke, kanskje den venter fem uker, men den kommer absolutt ikke før en ikke.
 
Topp