Referrer Spam

do-not-feed-the-referrer-spam-bots
Heute geht es mal um das Thema Referrer Spam. Für alle, die noch nie etwas von Referrer Spam gehört haben, versuche ich das Problem mal in ein paar Sätzen zu beschreiben:

Referrer-Spam (Logdatei-Spam) ist eine Form des Suchmaschinen-Spamming die in die Kategorie der Black-Hat Techniken gehört. Hierbei werden Webseiten massenhaft aufgerufen, was zur Folge hat, das die Referrer-Informationen in den Statistiken der angegriffenen Webseiten auftauchen. Das klingt erst mal nicht so schlimm, erzeugt aber höheren Traffic und ist sehr nervig.

Referrer Spam Google Analytics

Hier ein schönes Beispiel einer Seite mit sehr viel Referrer Spam. Fast 20% des Traffics wird hier durch Spammer verursacht. Das verzerrt die Statistiken in Google Analytics schon ordentlich.

 

Was bring Referrer Spam?

Ohne hier zu tief ins Detail gehen zu wollen, kann man zusammenfassend sagen: Referrer Spam bringt mehr Besucher für den Spammer auf unterschiedlichsten Wegen.
Wie kann man mir Referrer Spam umgehen?
Am einfachsten ist es wohl, den Referrer Spam zu ignorieren und einfach zur Tagesordnung überzugehen. Man kann es auch positive sehen. Schließlich hat man mehr Besucher und mehr Zugriffe. Das ist doch eigentlich positiv. Leider sind diese Zugriffe nicht natürlich und werden von sog. Bots durchgeführt, die über einen falschen HTTP Header die Statistik verfälschen.
Wer doch etwas gegen Referrer Spam machen möchte, hat eine Menge Möglichkeiten um dem Problem entgegen zu treten. Allerdings finde ich es ja eine Zumutung, mich wieder mal um so einen Mist kümmern zu müssen, statt schön in der Sonne liegen zu können.

 

Abwehrmechanismen gegen Referrer Spam

Nofollow
Die einfachste Art und Weise, ist die Verwendung des rel=“nofollow“-Attributes in veröffentlichte Logdateianalysen. Das führt dazu, dass diese Links nicht zur Berechnung des Suchmaschinen-Rankings genutzt werden. Allerdings sehe ich trotz der Verwendung des Nofollow Attributes in den Analytcs Statistiken massenweise Referrer Spam. Den Spammern scheint es egal zu sein, ob sich aus dem Referrer Spam auch Links ergeben, die in irgendeiner Form suchmaschinenrelevant sind. Also ist Nofollow keine brauchbare Lösung.

.htaccess
Einen besseren Abwehrmechanismus gegen Referrer Spam bietet die Aussperrung der Ref. Spam Bots über die .htaccess Datei. Das folgende Beispiel sorgt dafür, dass es dem Bot nicht möglich ist die Seite aufzurufen, wenn im Referrer z.B. free-share-buttons.com, event-tracking.com oder get-free-traffic-now.com steht. Dadurch landen die Seutenraufrufe auch nicht im Log und der Traffic wird auch reduziert.

RewriteCond %{HTTP_REFERER} free-share-buttons.com [NC,OR]
RewriteCond %{HTTP_REFERER} event-tracking.com [NC,OR]
RewriteCond %{HTTP_REFERER} get-free-traffic-now.com [NC]
RewriteRule .* - [F]

Dies sogt dafür, dass man Ruhe hat und die Referrer außen vor bleiben. Allerdings ist die Pflege dieser .htaccess Datei nicht bei jedem Webhoster möglich und auch die Spammer sind nicht auf den Kopf gefallen (leider) und registrieren regelmäßig neue Domains. Dann fängt der Spaß wieder von vorne an.

CMS Plugin
Für unterschiedliche Content Management Systeme wie z.B. Yoomla. Typo3 und WordPress gibt es Erweiterungen, die dieses Problem auch adressieren. Z.B. das WordPress Plugin „SpamReferrerBlock“ ist so eine Erweiterung. Es verwendet eine Blacklist, um http Requests auf Referrer Spam zu untersuchen und „Spam Referrer “ Angriffe zu filtern. Die verwendete Liste basiert auf den Spam Referrern der Webseite des Autors ein paar anderer Webseiten.
Diese Lösung ist auch sehr effizient und hat den Vorteil gegenüber der .htaccess Lösung, dass man nicht extra an der .htaccess Datei herum pfuschen muss.

Google Analytics
Google Analytics bietet eine Möglichkeit, einen Filter anzulegen und damit den Referrer Spam in Analytics zu unterdrücken. Dadurch wird der Datentransfer zwar nicht weniger, aber wenigstens ist die Statistik in Google Analytics nicht mehr verfälscht. Das Anlegen eines solchen Filters ist schnell gemacht und wird unter https://support.google.com/analytics/answer/1034823?hl=de sehr übersichtlich erklärt, so dass ich hier nicht nochmal alles beschreiben muss . Solche oder ähnliche Lösungen gibt es auch für andere Analytics Tools wie z.B. Piwik. Allerdings hat die Lösung auch den Nachteil, dass man ständig die URLs der Spammer manuell eintragen muss. Außerdem gibt es auch eine Reihe von Web-Statistik Tools, die keine Möglichkeit bieten, den Referrer Spam auszuschießen. In dem Fall kann man das Tool erweitern, was aber nur möglich ist, wenn es ein Plugin-Interface gibt oder die Software Open-Source ist und man ausreichende Programmierkenntnisse hat.

 

Der öffentliche Pranger für Spammer

Unter dem Namen „Public List of Referrer Spammers“ gibt es im Internet einen öffentlichen Pranger. Hier werden die URLs von Spam Referrern gesammelt und öffentlich zur Verfügung gestellt. Die Liste wird unter der Führung von Piwik von der Community gepflegt und ständig auf dem laufenden gehalten. Die Liste ist eine einfache Textdatei, die unter http://github.com/piwik/referrer-spam-blacklist zu finden ist. Die Liste ist Public Domain. D.H. es gibt kein Copyright darauf. Genau genommen ist das in Deutschland eigentlich nicht möglich, aber da will ich mal nicht so kleinlich sein.
Aktuell sind 49 Einträge in der Liste und es werden kontinuierlich mehr. Sieht man sich die History der Datei in der Versionverwaltung an, kann man schön die Entwicklung der Datei nachvolziehen. So ist die Datei z.B. am 19.04 mit 18 Einträgen angelegt worden und enthält nun (02.06.2015) schon fast 50 Einträge.

 

Fazit

Referrer Spam ist doof, aber man kann sich schützen. Die Liste hilft dabei, diesen Schutz wirksam aufrecht zu halten und ganz offensichtlich ist der Bedarf an so einer Liste extrem groß und viele Webmaster sind vom Referrer Spam genervt und sind bereit den Spammern mit geballter Kraft entgegen zu treten. Ich werde mich auch daran beteiligen und meinen Blog mit Hilfe des Plugins vor dem Referrer Spam schützen.