Suspekte Bot-Zugriffe.

StartSeite

Spamattacken oder Live.com Qualitätscheck von Microsoft?

Live Bot Spam-Traffic stört die Webseiten-Statistik

Zunächst war ich sehr verwundert mit vollkommen themenfremden keywords Zugriff von live.com zu bekommen. Meine erste Vermutung war eine Spam-Prüfung seitens Microsoft, konnte ich zunächst doch die Referer-URL aus dem log-files nicht aufrufen. Interessant war ebenfalls das der Bot immer im Schlepptau des bekannten MSN-Bot aufgeschlagen ist. Zugriffe der Microsoft IPs der range 65.55.165.* hinterlassen massenhaft völlig unrelevanten search strings wie: "search.live.com/result.aspx?q=keyword&mrt=en-us&FORM=LVSP" Mitlerweile kann die auch von mir zeitweise vertretende Theorie einer Spamattacke über eine Microsoft Proxy-IP zu den Akten gelegt werden. Wie auch bei webmastersworld offiziell vom msndude bestätigt wurde, handelt es sich tatsächlich um ein quality scoring. Die Bots kommen jetzt massenhaft mit search strings der Marke: "FORM=LIVSOP". Offenbar war MSN das öffentliche Interesse zu groß und folgerichtig wurden die sichtbaren Spuren geändert und verschleiert. Außerdem erzeugt das Aufrufen des referers tatsächlich Suchergebnisse, die Webmaster werden aber vergebens die eigene Seite suchen.

Live.com/msn.com quality scoring die Zweite.

Live.com Qualitätscheck

Es ist sehr ärgerlich für Webmaster die logfiles durch live.com mit nicht existenten referers vollgepumpt zu bekommen. Offenbar zeigt aber das gegenwärtige quality scoring bereits erste Wirkungen in den Serps. In einigen Webmasterforen wird bereits von vermehrten traffic über live.com berichtet. Ich selbst bin nunmehr auch mit einigen guten keyword Kombinationen bei live.com gelistet, welche mir aus der USA erstaunlich viel traffic bringen. Welchen Zweck erzielt live.com mit den Aufruf der Seite aus den Serps? Wird hier der cache mit der tatsächlichen Seite die online ist abgeglichen? Haben die eine Methode entwickelt, dem Bot vorenthaltende Inhalte zu erkennen? Das würde erklären warum Microsoft die Aktion nicht im stillen Kämmerlein durchführt. Wie auch immer, es wird sicher nicht schaden, wenn eine der wenigen Alternativen zu google sich wieder mehr ins Gerede bringt. Ich persönlich würde es sehr begrüßen, in Zukunft auch von live.com mehr relevanten traffic zu bekommen. Kleiner Nachtrag: Nach drei Wochen intensiven crawlen der MSN-Bots haben sich meine Positionen in den Live.com Serps deutlich verbessert. Die Quality-Bots arbeiten unvermindert intensiv weiter. Ich bin gespannt wie sich das weiter entwickelt!
Aktuell kommt der MSN bzw. Live bot ürber Search Strings mit "form=QBHP" über
IPs der Range 65.55.110.* und zieht nebenbei auch die entsprechende CSS-Datei.
"search.live.com/result.aspx?q=keyword&form=QBHP"
Das wachsende Interesse an den CSS-Dateien konnte ich auch bei Google im Zusammenhang mit neu online gestellten Domains beobachten.

Cloaking-Test jetzt auch durch die GoogleBots.

Qualitäts- und Cloakingtest durch google.

Das MSN bzw. die Live-Suche auf den oben beschriebenen Cloaking-Test kein Patent hat, zeigte die logfile-Analyse wenige Wochen später. Selbst ein Branchen-Primus wie Google, hat offembar immer ein wachsames Auge auf die Techniken und Neuentwicklungen der Konkurrenz. Es ist ein beliebtes Spiel der Black Hat Seo und Hardcore-Spammer Szene: Dem Bot werden Inhalte angeboten, welche die Surver nicht zu sehen bekommen. Auch Google generiert gelegentlich nach dem normalen Bot-Besuch einer Seite eine Suchabfrage "google.com/search?q=hpd" für das entsprechende Dokument, um offenbar ein Seitenaufruf zu erzeugen, der dem eines Users gleicht. Welche Kriterien eine solche Prüfung auslösen oder ob diese Abfragen ähnlich wie bei Live.com zur Normalität werden, kann ich nicht beurteilen. Für die Webmaster sind derartiger Zugriffe äußertst ärgerlich und klar als Refferer-Spam einzustufen. Die Statistiken werden durch solche verschleierten Bot-Besuche verfälscht, kaum vorstellbar wenn diese Praxis auch bei Google zum Standard wird.

Ähnlicher Artikel zum Thema: Google Cloaking Check mit Humor !

Manuelle Überprüfung von Webseiten durch Google Mitarbeiter?

Besuch eines Google Mitarbeiters aus Mountain View?

Direkte Seitenaufrufe von Google Mitarbeitern über IP-Adressen aus Dublin (z.B. 193.120.148.177) sind im Zusammenhang mit dem AdSense-Support oder eventuellen Spamreporten lieber Mitbewerber der in SEO- und Webmaster-Szene bestens bekannt. Der Grund für die zielgerichteten Besuche aus Moutain View, Kalifornien kann bis heute nicht eindeutig geklärt werden. In den letzten Wochen ist mir immer wieder die Google IP 74.125.16.66 mit recht suspekten Besuchen auf englischen wie auch auf deutschen Webseiten aufgefallen. Dabei wurden sowohl über relevante Keywords:
"GET /google-besucht-webseite.htm HTTP/1.1"
"http://www.google.com/search?q=besucht+webseite"
"Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.0.7) Gecko/20060909 Firefox/1.5.0.7"

als auch über die Domainabfragen:
"GET / HTTP/1.1" "http://www.google.com/search?q=domain.de"
reine Seitenhits ohne Laden von Grafiken und Scripten erzeugt. Sofern es sich um keine automatisierten Abfragen handeln sollte, dürften es Google Mitarbeiter mit speziellen Browsern sein, die besonderes Interesse an den Quellentexten der Webseiten haben. Irgend welche negativen oder positiven Auswirkungen konnte ich im Zusammenhang mit den Besuchen bis jetzt nicht feststellen.

Relevanter Artikel zum Thema: Mediapartners Google Bot Crawl Fehler

MSN bzw. Live.com MSR-ISRCCrawler ignoriert robots.txt!

MSR-ISRCCrawler ignoriert robots.txt

Seit einigen Monaten sind mir immer wieder suspekte Besuche von Bot's einer Microsoft IP-Ranche aufgefallen.
(IP 131.107.65.41, 131.107.151.93 und 131.107.151.157) Im Web konnte ich lange Zeit nichts Aufschlußreiches über diesen Microsoft Crawler finden. Heute (25.05.08) ist das Teil derart aktiv geworden, daß ich mich veranlaßt sah, erneut in meinen logfiles und im Internet zu recherchieren. Der Bot greift bei mir Seiten einer Community, die seit Jahren nicht mehr online sind, korrekt per robots gesperrt sind und nie extern verlinkt waren. Die Angaben zum UserAgent sind mehr als spärlich:
"GET /webseite.php?l=hu HTTP/1.1" "-" "MSR-ISRCCrawler"
Dabei ignoriert der Crawler kategorisch die robots.txt - nein, er macht sich nicht mal die Mühe die Robots zu ziehen. Nachdem ich auf Grund von aktuellen Beiträgen bei webmastersworld davon ausgehen kann, daß ich kein Einzelfall bin, steht für mich fest: Das Teil gehört ausgesperrt! Bei allem Respekt vor den Branchen Primus der Internet und Computer Szene, auch ein Microsoft-Bot sollte sich an gängige Gepflogenheiten im Net - den Spider Restriktionen der robots.txt halten.
Nachtrag: Offenbar haben Microsoft-Mitarbeiter die aktuell allgemeine Empörung in den Webmaster-Portalen registriert - Jetzt wollte das Teil bei mir erstmalig die robots.txt ziehen, zu spät: Error 403 !

Livebot checkt den 301 Redirect,
sind 301 Weiterleitungen im Visier der Suchmaschinen?

Livebot checkt 301-Weiterleitungen

Die Livesuche schickt einen besonderen LiveBot zur Prüfung von 301 Weiterleitungen auf den Weg. Über die IP Adressen der Range 131.107.0.0/16 - in meinen Fall 131.107.0.95 und 131.107.0.96 - werden die weitergeleitete Seite und die Zielseite incl. der JS und CSS Dateien aufgerufen. Anschließend verschwindet der Microsoft-Bot mit normaler Mozilla UserAgenten Kennung wieder so schnell wie er aufschlug. Die Rewrite Engine ist ein mächtiges Instrument zur Optimierung von Webseiten, wurde aber auch in der Vergangenheit so wie noch heute für allerlei Grey und Black Hat Techniken mißbraucht. Das besondere und zunehmende Interesse der Suchmaschinen für die 301 Weiterleitungen ist aus meiner Sicht durchaus verständlich. Google legt immer wieder Webmastern und SEO über die Botschaften offizieller Sprecher die Verwendung des 301 Redirect nahe. In jüngster Zeit häufen sich dezente Hinweise, diese Weiterleitungen zunächst mit einigen Unterseiten zu testen, um keine massiven Rankingverluste zu riskieren. Aus eigener Erfahrung kann ich bestätigen, daß htaccess Weiterleitungen mit 301 Redirect keinesfalls immer den gewünschten Effekt haben und durchaus mit Verlust von Positionen und Trust verbunden sein können. Bei kompletten 301-Weiterleitungen alter gut positionierter Projekte ist Vorsicht geboten!

Sauberer 404 Fehler

Eine korrekte 404 Fehler Antwort des Servers auf Requests von nicht existenten Verzeichnissen oder Dateien sind ein Faktor der Ranking Bewertung von Webseiten.


Cloaking-Test

Surfverhalten & Ranking

Proxy sperren

Spam & Content Grabber

Standard-Domain definieren

Viren, Trojaner & Spyware

Subdomain oder Verzeichnis

Kommerz im Internet

BackLinks mit Linkbaiting

Socialbookmarking

PageRank Sculpting

Artikelverzeichnisse