wtorek, 9 października 2012

Adsense, pająki i robots.txt

W tym krótkim artykule zaznajomię Was, jak system Adsense serwuje reklamy na stronach wydawcy.

Rafał Lysik
Wiecie na pewno, że reklamy Google Adsense zaliczane są do reklam kontektsowych. Co to oznacza? Oznacza to dokładnie, że treść reklam jest zbieżna do treści strony, a więc reklamy dopełniają zawartość strony czyniąc ją wartościowszą dla użytkownika. Często w slangu wydawców słyszy się o reklamach Adsense dla treści...

Jak Google Adsense "czyta" treść?
W powyższych kilku zdaniach podkreśliłem, że w Adsense najważniejsze jest to, że system Google sam dopasowuje jakie reklamy wyświetlać na stronie wydawcy, biorąc pod uwagę treść na danej stronie. Na przykładzie zobrazuję to tak, że Adaś ma stronę o Audi A5, więc w przeważającej mierze na jego stronie będą wyświetlać się reklamy dilerów samochodowych, reklamy opon oraz olejów silnikowych. Z kolei Basia ma stronę poświęconą modzie. Na jej stronie często będą pojawiać się reklamy nowych kolekcji znanych marek, reklamy markowych butów, mogą się pojawiać reklamy perfum i ogólnie związane z tematyką wyprzedaży i zakupów. To jest jak najbardziej naturalne!

Google Adsense czyta treść analogicznie, jak my czytamy Onet czy program telewizyjny. My (użytkownicy) wchodzimy na strony internetowe przez przeglądarki internetowe, np. Operę, Google Chrome, Mozillę Firefox. Google Adsense ma swoją przeglądarkę, jest ona identyfikowana przez nagłówek agenta Mediapartners-Google. Tak więc system Google Adsense włącza swoją przeglądarkę internetową (Mediapartners-Google) i czyta zawartość naszej strony, aby zorientować się w jej tematyce. Z technicznego punktu widzenia wygląda to tak, że robot Adsense wchodzi na naszą stronę i ją czyta, czyli pobiera jej zawartość.

Jeśli na tej stronie są reklamy Adsense, to strona taka wysyła żądanie wyświetlenia reklamy do systemu Google Adsense. System Google Adsense wie już jaka jest tematyka tej strony, więc dobiera najodpowiedniejszą reklamę do treści znajdującej się na tej stronie. To jest idea funkcjonowania całego "ekosystemu" Adsense, czyli użytkowników, wydawców i reklamodawców. Każdy jest zadowolony, bo dostaje to, czego chce.

Jak długo robot Adsense czyta stronę?
Dobre pytanie. Na Forum Pomocy Adsense użytkownicy często pytają, dlaczego na ich stronie wyświetlają się reklamy kompletnie nie związane z tematyką witryny. Przykładowo, na stronie poświęconej grom MMORPG pojawiają się reklamy hostingu i serwisów towarzyskich. Powyższa sytuacja w zdecydowanej większości przypadków występuje na początku powstania strony, gdy nie jest ona zaindeksowana i robot Adsense nie zdążył ją jeszcze przeskanować. Oczywiście proces ten trwa o wiele dłużej w przypadku większych serwisów, jednak nie powinien trwać dłużej niż tydzień. Jeśli po tygodniu dalej sytuacja będzie występowała, jest to znak, że problem leży po twojej stronie, dokładnie na serwerze lub skrypcie.

Uwaga: robot indeksujący Adsense, czyli Mediapartners-Google jest całkowicie
niezależny od robota indeksującego wyszukiwarki Google.

Tym sposobem omówiliśmy Adsense i pająki, bo właśnie robot indeksujący Adsense jest takim pająkiem. Teraz czas na robots.txt

Czy Adsense respektuje plik robots.txt?
Plik robots.txt informuje pająka Adsense, czy webmaster życzy sobie aby jego strona była dostępna dla robotów (dla Mediapartners-Google) , czy też nie. Tak, pająk Adsense honoruje plik robots.txt. Co to oznacza? Jeśli webmaster zabroni robotowi indeksowania danej strony to oznacza, że nie chce, aby pojawiała się ona w indeksie wyszukiwarki. Zapis odmawiający (disallow) oznacza, że webmaster nie chce, aby roboty odwiedzały jego serwis. Plik robots.txt jest właściwie standardem w internecie i honoruje go większość pająków odwiedzających nasze strony.

Jak działa plik robots.txt?
Załóżmy, że robot wchodzi na naszą stronę www.mojadomena.pl. Jeśli jest to pająk honorujący plik robots.txt, to najpierw szuka on w serwisie tego pliku, wchodząc w pierwszej kolejności pod adres www.mojadomena.pl/robots.txt. Jeśli znajdzie ten plik, to stosuje się do instrukcji w nim zawartych. Jeśli tego pliku nie ma w serwisie (np. do nie dawna nie było plików robots.txt w blogach na Bloggerze), to traktuje to tak, jakby webmaster pozwolił odwiedzać jego serwis robotom.

Robots.txt a Adsense
Jak już wspomnieliśmy, system Google Adsense stara się dopasować reklamy do treści strony. Jednak wspomnieliśmy także, że pająk Adsense honoruje plik robots.txt. W praktyce może wystąpić taka sytuacja, że webmaster blokuje indeksację stron przez robota Adsense, a mimo to dalej chce wyświetlać reklamy Adsense na tej stronie. Oczywiście w panelu Adsense pojawi się komunikat, że pająk Adsense wykrył problemy z plikiem robots.txt i prosi się wydawcę Adsense o ich usunięcie. Jednak system Adsense nie może czekać całego dnia czy tygodnia, aż webmaster poprawi wspomniane problemy. Reklamę trzeba wyświetlić odwiedzającemu teraz, bez zbędnej zwłoki. Dlatego system Adsense może wykorzystać w tym celu poprzednio zaindeksowane kopie strony lub też opierać się na serwisach zewnętrznych i/lub korzystać z narzędzi wewnętrznych Google, aby wykryć tematykę danego serwisu, albo nawet i podstrony.

Dlatego zaleca się, aby zezwolić robotowi Adsense na dostęp do strony na której są wyświetlane reklamy po to, aby były na niej wyświetlane trafniejsze reklamy. Jeśli zależy Wam, aby strony z reklamami Adsense nie były indeksowane w wyszukiwarce Google, nic nie stoi na przeszkodzie. Jak już podkreślono, pająki wyszukiwarki Google i Adsense są niezależne, więc można pozwolić na dostęp do serwisu robotowi Adsense, zabraniając jednocześnie pozostałym pająkom:

User-Agent: Mediapartners-Google
Disallow:

Rozwinę jeszcze cytat z artykułu pomocy Adsense: "Robot indeksujący AdSense będzie podejmował próby indeksowania tylko tych stron, które mają kod reklam AdSense oraz wysyłają żądania reklam." Jeśli chodzi o wysyłania żądania reklamy to trzeba zwrócić uwagę na dodatki w przeglądarkach blokujące wyświetlanie określonych skryptów lub blokujące wysyłanie żądań HTTP. Najczęściej takie blokery są używane podczas blokowania nachalnych, wyskakujących reklam.

Robot Adsense nie musi skanować strony przy każdym żądaniu przesłania reklamy przez daną stronę. Algorytm uwzględnia fakt, że treść na podstronach serwisu nie zmienia się zbyt często. Oszczędza to jednocześnie transfer pochłaniany przez roboty, ale jest jednocześnie pewnym kompromisem pomiędzy aktualnością treści w danym zasobie a zasobami potrzebnymi do uzyskania takiego stanu świeżości.

Poniższy log pokazuje, że nie za każdym wyświetleniem strony związana jest wizyta robota indeksującego Adsense.

1349811300 | Mediapartners-Google
1349811301 | Mozilla/5.0 (Windows NT 5.1; rv:12.0) Gecko/20100101 Firefox/12.0
1349811181 | Mozilla/5.0 (compatible; proximic; +http://www.proximic.com/info/spider.php)
1349811192 | Mozilla/5.0 (Windows NT 5.1; rv:12.0) Gecko/20100101 Firefox/12.0
1349812255 | Mozilla/5.0 (Windows NT 5.1; rv:12.0) Gecko/20100101 Firefox/12.0
1349812272 | Mozilla/5.0 (Windows NT 5.1; rv:12.0) Gecko/20100101 Firefox/12.0
1349812293 | Mozilla/5.0 (Windows NT 5.1; rv:12.0) Gecko/20100101 Firefox/12.0
1349813293 | Mozilla/5.0 (Windows NT 5.1; rv:12.0) Gecko/20100101 Firefox/12.0
1349815134 | Opera/9.80 (Windows NT 5.1; U; pl) Presto/2.10.229 Version/11.60

Po lewej od znaku | znajduje się unixowy znacznik czasu, po prawej nazwa User-Agent przeglądarki. Dwie pierwsze linie świadczą o tym, że podczas pierwszego wejścia na stronę, sekundę później wszedł na nią pająk Adsense po to, aby ją "przeczytać". Na stronie znajdowała się niewielka ilość skopiowanej treści. Reklamy po kilku minutach dopasowały się idealnie.

0 komentarzy:

Prześlij komentarz