niedziela, 13 marca 2011

Jak zablokować dostęp "złych botów" do strony www

Nie od dziś wiadomo, że w sieci krąży setki crawlerów.Sam kiedyś robiłem takie testy i powiem że zdziwiłem się widząc ich liczbę.Większość z tych robotów jest bezużytyczna (służy tylko właścicielowi robota) i pożera tylko transfer.Z tego powodu warto jest je zablokować.

Jak rozpoznać robota?
Zwykle pomocny w tym wypadku będzie nagłówek HTTP_USER_AGENT.Za pomocą tego nagłówka przeglądarka się identyfikuje.Można oczywiście zmienić taki nagłówek, ale większość botów tego nie robi.Polecam link do anglojęzycznego wpisu jak zablokować botom dostęp do strony.
Oczywiście obowiązkowo należy dać dostęp robotowi Google, Yahoo, Binga.

2 komentarzy:

killerbees pisze...
Ten komentarz został usunięty przez autora.
killerbees pisze...

Tak na dobrą sprawę należy przede wszystkim dobrze zdefiniować plik htaccess. Dzięki temu mamy pewność, że odwiedzać nas będą roboty i indeksować tylko te, który chcemy. Przy tworzeniu stron https://dolp.pl/strony-www może to mieć dość duże znaczenie.

Prześlij komentarz

Podziel się swoimi myślami.Spam nie będzie tolerowany.