Referrer- und Ghost-Spam

Seit Anfang 2015 verzeichnen wir in unseren Logfiles und in Google Analytics zunehmend sog. Referrer-Spam und Ghost-Spam.

Begriffserklärungen

Referrer-Spam bezeichnet dabei automatisierte Aufrufe unserer Websites durch Dritte, Ghost-Spam die Simulation solcher Aufrufe von dritter Seite durch direktes Ansprechen der Google Analytics-Schnittstelle*.

Beim Referrer-Spam findet also tatsächlich ein Aufruf einer unserer Websites statt. In Analytics finden sich dann unter 'Überweisende Websites' z.B. Aufrufe von Websites wie 'Buttons4all'. Beim Ghost-Spam wird vom Spammer die Analytics-Kennung direkt angesprochen, d.h. es findet tatsächlich gar kein Aufruf unserer Website statt. Dieser wird Google Analytics lediglich vorgegaukelt.

Warum machen die Spammer das?

Es gibt drei Motive hinter diesen Spam-Methoden:

  • Erzeugen von 'Inbound Links' durch Referrer-Spam. Referrer-Spam-Aufrufe erscheinen mit Link zur aufrufenden Spam-Website in den Logfiles der Webserver. Sind diese Logfiles, was leider oft geschieht, nicht passwortgeschützt, werden sie von Google gelesen. Da Google Links zu einer Website sozusagen als Empfehlung für diese Website wertet, können die Betreiber der Spamwebsite davon profitieren und ein besseres Ranking bei Google erzielen.
  • Generieren durch Traffic (Zugriffe) dadurch, dass Webmaster die Spamsite-Links in den Logfiles oder Statistiken anklicken. Höherer Traffic ist einerseits ebenfalls ein Bewertungskriterium für Google. Zum andern können die Betreiber der Spamwebsites durch Hinweis auf gesteigerten Traffic von Werbekunden mehr Geld verlangen (z.B. wenn die Schaltung von Werbebannern per 'Cost per View' abgerechnet wird).
  • Verbreiten von Schadsoftware an unvorsichtige Webmaster: Einige der Spamsites bieten angeblich nützliche Tools und Services an, buttons4all z.B. Social-Media-Like-Buttons zur freien Verfügung. Baut ein unvorsichtiger Webmaster diese in seine Website ein, können die Spammer über den Code dieser Buttons Schadsoftware auf den Server laden, die diesen missbraucht oder sogar hijackt. - Darüber hinaus reicht für manche Angriffe schon der Aufruf einer mit Schad-Code versehenen Website, vor allem dann, wenn im Browser des Aufrufenden Schwachstellen vorhanden sind (z.B. wenn die Browsersoftware nicht auf dem allerneuesten Stand ist, oder bei Plugins wie Flash …).

Dies alles funktioniert, weil die Spammer durch automatische Routinen ohne großen Aufwand und Kosten hunderttausende solcher Spamaufrufe generieren können. Abgesehen von den beiden ersten Motiven, deren 'Nutzen' für den Spammer offensichtlich ist, ist die Rechnung für das dritte Motiv ganz einfach: Wenn nur ein Promille aller gespamten Webmaster darauf hereinfallen, dann sind das bei einer Million Spamaufrufen immerhin 1.000 Möglichkeiten, Spamsoftware zu platzieren.

Folgeschaden: Verzerrung der Google Analytics-Daten

Indirekter, aber durchaus bedeutsamer Schaden entsteht dadurch, dass die Zahlen in Google Analytics und anderen Statistik-Tools verfälscht werden. So werden Websitebesuche verzeichnet, die keinen echten Besuchern entsprechen. Und Faktoren wie Verweildauern auf der Website oder Anzahl aufgerufener Seiten verschlechtern sich, weil diese automatischen Spamaufrufe meist nur eine Seite aufrufen. Für Websitebetreiber, die Google Analytics nutzen, um den Erfolg ihres Internet Marketings zu messen, ist dies natürlich sehr ärgerlich.

Was kann man tun?

Zunächst könnte man fragen, warum Google selbst nichts dagegen unternimmt. Man äußert sich bei Google zu diesem Problem zurückhaltend. Es sei bekannt, und man arbeite daran, heißt es schon seit längerer Zeit.

Man kann sich mit Filtern helfen, die man im Analytics-Konto einrichtet. Für Ausschluss-Filter müsste dazu eine Liste aller bekannten Spam-Websites einrichten und diese automatisch herausfiltern lassen. Nachteil der Methode: Die Spammer haben schneller neue Domains eingerichtet, über die sie dieselbe Spamwebsite publizieren, wie man selbst solche Spammerlisten schreiben kann. Man läuft so ständig hinterher ...

Besser sind sog. Positiv-Filter. Dazu richtet man in Google Analytics eine gefilterte Datenansicht ein. Diese muss eine Positivliste aller Domainnamen enthalten, deren Aufrufe Google Analytics erfassen soll. Im Normalfall werden das die eigene Domain (ggf. in Schreibweise mit und ohne www) sowie Google-Translate-Versionen der eigenen Website sein. Die Spammer (vor allem die Ghost-Spammer) benutzen hier meist nicht die richtigen Domänen, da sie oft gar nicht wissen, wessen Statistik sie gerade manipulieren (siehe die Anmerkung unten).

Diese Vorgehensweise ist sehr effektiv, allerdings ist das Einrichten dieser gefilterten Datenansichten nicht ganz trivial. Aus diesem Grunde verzichten wir hier auf eine detaillierte Anleitung. Bei näherem Interesse kontaktieren Sie uns bitte.

*Jeder Google Analytics-Account verfügt über eine eindeutige ID, die zusammen mit anderem Code in die Website eingebaut werden muss, die Google Analytics nutzen soll. Über diese ID ordnet Google die mittels des Trackingcodes erfassten Aufrufe dieser Website zu. - Missbrauch ist möglich, wenn solche IDs ausgelesen werden (sie sind ja lesbar im Website-Code enthalten). Darüber hinaus können Spammer solche ID s automatisch in großer Zahl generieren, da sie nach einem festen Schema aufgebaut sind. Mit diesen automatisch generierten IDs 'beschießen' sie dann die Analytics-Schnittstelle … und erzielen Zufallstreffer. Auch hier: Es ist nur eine Frage der Menge, bis sie damit Erfolg haben ...