Plik robots.txt
Plik robots.txt jest specjalnym dokumentem tekstowym sprawdzanym przez
roboty wyszukiwarek indeksujących stronę i stosującym specjalny protokół
- Robots Exclusion Protocol, który pozwala administratorowi zablokować dostęp
wybranym robotom do określonych plików/katalogów na serwerze. Plik ten może
być szczególnie przydatny, gdy na serwerze przechowuje się poufne zasoby czy
strony będące w trakcie przygotowywania. Aby te dane nie zostały
zaindeksowane przez wyszukiwarki, wystarczy utworzyć w głównym katalogu
witryny plik robots.txt z odpowiednią zawartością.
Komendy zawarte w robots.txt są dość proste. Pole User-agent zawiera informacje na temat tego, jakich robotów wyszukiwarek dotyczy dany
rekord. Poniższy kod zabrania wszystkim pajączkom czytania zawartości folderu private i pliku index.html umieszczonym w katalogu temp:
User-agent: *
Disallow: /private/
Disallow: /temp/index.html
Gwiazdka (*) po User-agent oznajmia, że zakaz dotyczy wszystkich robotów,
jednak istnieje możliwość ograniczenia praw tylko wybranym szperaczom. Wówczas
w miejsce gwiazdki (*) wpisuje się jego nazwę:
User-agent: googlebot
Disallow: /private/
Disallow: /temp/index.html
Pajączki zmogą indeksować cały serwis, jeśli w głównym katalogu na
serwerze nie będzie robots.txt lub będzie on miał zawartość:
User-agent: *
Disallow:
Oto przykładowy plik robots.txt ze strony www.alexa.com:
# The crawlers listed below are allowed on the Alexa
site.
# Alexa allows other crawlers on a case by case basis.
# Send requests to frontdesk@alexa.com.
#
# Alexa provides access to traffic ranking data via Amazon Web Services.
# More information here: <URL: http://www.amazon.com/gp/browse.html/?node=12920391>
User-agent: googlebot
Disallow: /search
User-agent: gulliver
Disallow: /search
User-agent: slurp
Disallow: /search
User-agent: fast
Disallow: /search
User-agent: scooter
Disallow: /search
User-agent: vscooter
Disallow: /search
User-agent: ia_archiver
Disallow: /search
User-agent: Nutch
Disallow: /search
User-agent: FAST-WebCrawler
Disallow: /search
User-agent: teoma_agent1
Disallow: /search
User-agent: Lycos_Spider_(T-Rex)
Disallow: /search
User-agent: MSNBOT/0.1
Disallow: /search
User-agent: ArchitextSpider
Disallow: /search
User-agent: ZyBorg
Disallow: /search
User-agent: SurveyBot
Disallow: /search
# Disallow all other crawlers
User-agent: *
Disallow: /
Innym podobnym rozwiązaniem jest znacznik META ROBOTS w sekcji HEAD dokumentu
HTML. znacznik ten przy pomocy odpowiednich parametrów instruuje mechanizmy
wyszukiwarek, jak powinny indeksować stronę. Może on mieć parametry:
index - pozwala robotom indeksować stronę
noindex - zapobiega indeksowaniu strony przez roboty
follow - pozwala robotom indeksować strony, do których dotrze poprzez
linki w danej witrynie
nofollow - zabrania robotom indeksować stron, do których linki znajdują
się w danej witrynie
all - zastępuje "index, follow"
none - zastępuje "noindex, nofollow"
Przykładowy tag ROBOTS wygląda następująco:
<META NAME="robots" CONTENT="index,
follow" >
Znacznik ten nie jest zbyt rozbudowany, posiada mniej opcji niż robots.txt,
jednak również może okazać się przydatny.