Content Grabber.

StartSeite

Der Ärger mit unerwünschten bots, spam und content grabber.

Ich hasse Content Grabber Internet-Parasiten!

Spätestens mit dem Aufkommen des Internets habe ich den Glauben an das Gute im Menschen verloren. Während mich der stumpfsinnige Spam in den Postfächern meiner email-Konten relativ kalt läßt, mußte ich gegen die unerwünschten Aktivitäten auf meinen Webseiten etwas unternehmen. Zwei Drittel des gesamten traffics wurden von den Attacken unerwünschter bots, content grabber und contentspammer verursacht. Als besonders hartnäckig erwiesen sich die Internet-Parasiten welche über Proxy IP-Adressen aus Korea, China, Indien, Russland und Japan aufschlugen. Da ich kaum relevanten traffic aus diesen Regionen verzeichnen konnte, habe ich entgegen meiner sonst recht liberalen Gesinnung ganze IP-Ranges ausgesperrt. Das vormals für die Analyse der IP-Adressen sehr nützliche tool Robtex ist zur nutzlosen Werbeschleuder verkommen, die SpamCops vom Project Honey Pot kann ich weiterhin empfehlen, weil diese Webseite recht eindrucksvoll zeigt, aus welchen Ecken des Webs die Flut des Internetmülls auf unsere Computer und Webseiten schwabt. Nach täglicher Logfile-Analyse und ca. 10.000 deny Einträgen kompletter IP-Ranges sowie Einzel-IPs in die htaccess-Datei ist ca. 90% des Spam-traffics gebannt, die Auswertung der Besucherstatistik macht jetzt wieder Spaß.

ContentGrabber & Harvester - Googlebot User Agent als Tarnung.

ContentGrabber tarnen sich als Google User Agent

Harvester und ContentGrabber haben oft einen manipulierten User Agent, geben sich auch gern mal als Googlebot aus, um die Webmaster zu täuschen. Selbstverständlich kann man nicht alle verwendeten IP Adressen sperren, denn die Grabber kommen auch über dynamische IPs, die ebenfalls von vielen anderen Internetusern verwendet werden. Denkbar wäre die Definition einer Positivliste über die htaccess, die nur den bekannten IP Ranches der von Google genutzten IPs die Verwendung des Google UserAgenten erlaubt. Maskiert sich ein Grabberbot als Google Bot bekommt er einen 403 Forbidden serviert. Natürlich sollte man die Google IP Ranges so großzügig wie möglich und präzisise wie nötig definieren. Hier ist eine Liste der von Google aktuell verwendeten IP Adressen, eine Gewähr für Vollständigkeit oder Richtigkeit kann ich nicht geben. Aber ich warne noch einmal, zur Sicherheit sollten die IP-Bereiche weitestgehend global und nur aus konkreten Anlass präzisiert werden. Die Präzisierung macht besonders dann Sinn, wenn in unmittelbare Nachbarschaft der Google IPs für Spam bekannte Adressbereiche der Webhoster liegen. Die Herren von Name Intelligence Inc. sind keine Spammer, können es aber offenbar nicht akzeptieren gesperrt zu sein.

Name Intelligence, Inc.
whois.domaintools.com - Cloaking mit Startseiten Duplikat.

Name Intelligence betreibt mit whois.domaintools.com Cloaking.

Ich bin kein großer Freund von Webmastertools welcher Art auch immer. Intensiv nutzte ich lediglich offline Logfile-Analyse Programme zur detaillierten Auswertung meiner Statistiken. Natürlich werden in diesem Zusammenhang auch mal Whois Abfragen nötig, um den Vandalen und weniger netten Kollegen im Web auf die Spur zu kommen. Für derartige Recherchen war whois.domaintools.com mein absoluter Favorit. Mich hat es förmlich vom Schemel gehauen, daß ausgerechnet dieser Dienst von Name Intelligence, Inc. die kompletten Startseiten Inhalte Einer meiner Domains kopiert und per Cloaking dem GoogleBot zum Fraß vorgeworfen hat. Man findet beliebige Textabschnitte der Startseite im Google Index wieder, der User wird natürlich auf die bei einer Domain Abfrage üblichen Inhalte geleitet und ein cache gibt es bekannter Weise nicht. Welchen Schaden Komplett-Duplikate einer Startseite anrichten können, brauch ich einem Webmaster-Profi nicht zu erklären. In das schmutzige Bild dieser unfairen Techniken passt die Manipulation des User-Agenten. Die aus anderen Gründen gesperrte IP Range von Spry Hosting 66.249.16.0/23 sperrte natürlich auch den crawler SurveyBot von Domaintools aus, was die netten Herren offenbar in Vermutung einer Rewrite-Regel auf die Idee brachte, es mal als Google MediaBot zu versuchen:

66.249.16.211 - - [20/Feb/2009:17:20:35 +0100] "GET / HTTP/1.1" 403 202 "http://whois.domaintools.com/domain.de" "Mediapartners-Google"

Soweit ich informiert bin, hält Google keine Anteile an Name Intelligence, Inc. und umgekehrt scheint das noch unwahrscheinlicher. Eine kleine Recherche im Net räumt auch die Vermutung eines etwaigen Google Bug aus, das Cloaking wurde bereits vorher unter der Domain whois.sc praktiziert. Screen-Shots sind gesichert - was ich neben dem Google Spam Report noch unternehmen werde, muß ich mir noch in Ruhe bei einem kühlen Bier überlegen.

Backlink Spammer werden immer dreister und aggressiver.

Content Spam, Backlink Spammer Internet-Parasiten

Besonders beliebt für den Content und Backlink Spam sind die weit verbreiteten kostenfreien php-scripte wie bsw. phpbb, wordpress oder joomla. Es werden speziell auf die jeweilige interaktive Software programmierte Spamprogramme entwickelt, die über anonyme Proxy-IPs auf die Webmaster losgelassen werden. Dabei gehen die Spammer äußersts geschickt vor. Zunächst wird unauffällig bei der jeweiligen Community automatisch ein Profil angemeldet, um Webmaster zu verwirren wird bei diesen Besuch oft ein scheinbar echter Referer vorgegaukelt. Unerfahrende Admins werden die scheinbar harmlose Anmeldung freischalten, reine mail-Verifizierungen brauchen diese Hürde bekanntlich erst gar nicht nehmen. Wenig später kommt der Spammer wieder, logt sich ein und müllt bsw. Foren mit aus einer Linksammlung bestehenden Beiträgen voll. Dabei sind die Spammer so fleißig, daß die Moderatoren mit dem Löschen nicht hinterher kommen. Gibt man den verwendeten Usernamen in die Google-Suche ein, wurden schon mal 65.000 Nutzer-Profil-Clone ausgespuckt. Jeden phpbb Forum Betreiber sollten Nutzer wie "wallunitfixer", "Jerikkos" und "Chadescha" ein Begriff sein. Hinter den massenhaft erstellten Benutzerprofilen versteckt sich nicht die Absicht zum Pushen von news.com, sondern die Benutzerprofil URL wird irgend wann in eine der lästigen Männer-Pillen oder Adult Entertainment Webseiten mit chinesischer Länderkennung gewandelt. Wie man unschwer erkennen kann, pflegt die große Masse der Webmaster die Webseiten nur unzureichend, so daß diese gezielten automatisierten Spam Attacken noch immer äußerst erfolgreich sind.

Liebe Muttis und Pappis, kümmert Euch um Eure Söhne!

Baby am Computer

Schenkt euren Söhnen genügend Aufmerksamkeit und Zuwendung! Ich wünsche Euch aufrichtig, daß sie sich zu prächtigen Kerlen entwickeln und besser den Mädels hinterher pfeifen, als sich mit sinnfreien Aktivitäten den pickligen Hintern am Computer breit zu sitzen, um so die Defizite an gesellschaftlicher Anerkennung zu kompensieren. Natürlich ist kein System perfekt, es wird immer neue Proxies geben und mehr oder minder erfolgreiche Vandalismus Attacken. Die log-files veraten mir, daß man bei der Suche nach Spam IPs und offenen Proxys auch hier gelegentlich aufschlägt und mit allerlei amüsanten Server Requests indirekt seine Identität und Ambitionen offen legt. Webmaster die sich regelmäßig mit extern gespeicherten Backups für den Fall der Fälle abgesichert haben, können über derartige Internet Aktivitäten nur müde Lächeln. In den echten Härtefällen schützt auch die Verschleierung von IPs und Einwahlpunkten nicht vor einer Strafverfolgung. Abschließend sei bemerkt, hinter den Slogans vom anonymen sicheren Surfen und dem Schreckgespenst des gläsernen Internetnutzers verbirgt sich in der Regel nur knallhartes kommerzielles Kalkül. Schaut man sich die dominierende Nutzergruppe bzw. die Drahtzieher hinter diesen Proxy Netzwerken genauer an, wird schnell klar, es geht im wesentlichen um die Platziereung von kommerziellen Spam. Wer leichtgläubig Rechnerresourcen, Server und IP Adressen für Proxy Netzwerke zur Verfügung stellt, sollte sich bewußt sein, in welche Nachbarschaft er sich damit automatisch begibt.

SEOmannsgarn sagt:

Ich berichte mit einem Augenzwinkern live von der Internet Front im World Wide Web, über Suchmaschinen und Google-Sklaven sowie alle Anderen auf dem Weg dahin.

Domina Google peinigt Online Sklaven

Spam & Content Grabber

Standard-Domain definieren

Viren, Trojaner & Spyware

Subdomain oder Verzeichnis

Kommerz im Internet

BackLinks mit Linkbaiting

Socialbookmarking

PageRank Sculpting

Artikelverzeichnisse

Webmaster Guidelines

Reziproker Linktausch

Linkkauf und Linkverkauf