Kategorien
Webdesign

Deckmäntelchen: IP-Cloaking

Was sich in deutscher Übersetzung treffend nach einem Deckmäntelchen anhört, ist tatsächlich keine saubere Art, sich in den großen Volltext-Suchmaschinen ein Topranking zu verschaffen. Dennoch ist das Verfahren aus technischer Sicht einen zweiten Blick wert…

von Tim Block

Was sich in deutscher Übersetzung treffend nach einem Deckmäntelchen anhört, ist tatsächlich keine saubere Art, sich in den großen Volltext-Suchmaschinen ein Topranking zu verschaffen. Dennoch ist das Verfahren aus technischer Sicht einen zweiten Blick wert – und sei es nur, um sich gegen aggressive Taktiken à la Spiderhunter zu wappnen.

Das Prinzip, nach dem altbewährte Volltextsucher arbeiten, ist hinreichend bekannt: Wörter oder Phrasen, in bestimmten HTML-Tags untergebracht, werden mit diesen in Verbindung gebracht und teilen der Suchsoftware so mit, wie relevant eine Seite für den entsprechenden Suchbegriff ist. Dieses in der Theorie einfache Prinzip ist für den Seitenbetreiber jedoch ein echtes Ärgernis, bedeutet es doch, seine Webseite praktisch nur für die Suchmaschinen zu gestalten: Oft genug an den Wünschen der Besucher vorbei.

Screenshot
Freie Wahl: Hier IP, DNS und User Agent

Die Lösung hierfür ist eigentlich nicht wirklich revolutionär. Sie nennt sich schlicht Browserweiche. Lösungen hierfür gibt es beispielsweise mittels SSI oder PHP. Der Quellcode hat selten ein Ausmaß von weniger als 10 Zeilen Code. Wieso diese einfachen Browserweichen nicht wie gewünscht funktionieren, ist mit dem vitalen Interesse des Suchmaschinenbetreibers an einem sauberen Index zu erklären. Einfache Browserweichen werden zuverlässig erkannt.

Das funktioniert im Regelfall wie folgt: Einfache Browserweichen fragen den so genannten „User Agent“ des Besuchers ab und trennen damit die tatsächlichen Besucher von den Suchmaschinen-Robots. Erscheint eine Seite der Suchsoftware verdächtig, etwa, weil sie zu wenig relevant für bestimmte Schlüsselwörter ist, schickt sie einen zweiten Crawler. Dieser ist als normaler Browser getarnt, so dass man das wahre Gesicht hinter der Browserweiche erkennen kann. Im Normalfall führt die Erkennung einer Browserweiche zum kompletten Ausschluss aus dem Index oder einer beträchtlichen Abwertung, folglich muss die Sache wasserdicht sein.

Wie gerade gesehen, ist der User Agent allein zu einfach zu umgehen. Um eine wirklich sichere Browserweiche zu erstellen, müssen weitere Informationen über den Besucher herangezogen werden. Und jetzt wird’s wirklich tricky. Erfahrene Profis ziehen so ziemlich jede auffindbare Information heran, um diese von einem neuronalen Netzwerk prüfen zu lassen. (Neuronale Netze sind ein Lösungsansatz im Datamining, um intelligente Datenanalyseverfahren durchzuführen).

Als Erstes wird die IP-Adresse des Besuchers mit den IP-Adressen aus einer Datenbank verglichen, in der sich Hunderte, wenn nicht Tausende gespeicherter Suchmaschinen-IPs befinden. Diese Listen kann man kostenlos im Netz einsehen oder auch in professioneller Qualität bei einschlägigen Firmen einkaufen. Dann wird die IP in einen Domainnamen umgewandelt. Dieser wiederum wird auf Namen oder Zeichenketten, die von Crawlern genutzt werden, untersucht und in entsprechender Art und Weise dem neuronalen Netzwerk zugänglich gemacht.

Die Möglichkeiten, dieses Spielchen bis zur Perfektion weiterzutreiben, sind nahezu unbegrenzt: Profis machen außerdem noch Tracerroutes. Sie verfolgen also zurück, über welche Server im Netz der Abruf der Seite weitergeleitet wird und unterziehen diese Server der gleichen Prüfung. Ganz Ausgeschlafene führen sogar „Whois“- Abfragen beim ripe.net durch, um auch das letzte bisschen Information über den Besucher zu bekommen.

Je nachdem, wie viele dieser Informationen auf eine Suchmaschine hindeuten, reagiert das neuronale Netzwerk. Wenn die Datenbank stets gut gepflegt ist, ist diese Möglichkeit nahezu unknackbar.

Ein erhellendes Wort zum Abschluß: Machen Sie sich nicht unglücklich und versuchen selbst ein solches Modell auf die Beine zu stellen, der Arbeitsaufwand ist mehr als enorm und verlangt ein Höchstmaß an Pflege. Außerdem verletzen Sie damit die Nutzungsbedingungen der Suchmaschinen und können rechtlich belangt werden.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.