SEO
Beratung
Holistische
Landingpages
Optimierte
Glossare
Sicherer
Linkaufbau
Local
SEO
SEO
Analyse
Als Crawler werden Computerprogramme bezeichnet, die automatisch das Internet nach Dokumenten und Webseiten durchsuchen. In der Praxis werden Crawler auch „Bot“ oder „Spider“ genannt. Vorrangig kommen Crawler bei Suchmaschinen zum Einsatz, wo sie nach der Analyse von Webseiten eine Sortierung nach vorher definierten Kriterien vornehmen. Die sich ständig wiederholenden Vorgänge laufen nach der Programmierung vollkommen autonom ab.
Die Geschichte der ersten Crawler reicht zurück bis in das Jahr 1993. Damals wurde am Massachusetts Institute of Technology der erste Webcrawler mit dem Namen World Wide Web Wanderer entwickelt, dessen Aufgabe darin bestand, das Wachstum des Internets zu messen. Die erste für alle Internetnutzer erreichbare Suchmaschine mit dem Namen Webcrawler ging 1994 an den Start. Sie war die erste Suchmaschine mit Volltextindex. Schnell gewann die Suchmethode in der Folge an Bedeutung und die Anzahl der verfügbaren Suchmaschinen nahm stetig zu. In der Gegenwart gibt es zahlreiche Crawler, die bis auf geringfügige Abweichungen nach demselben Grundprinzip arbeiten.
Ein Crawler wiederholt ständig die immer gleichen Arbeitsschritte und arbeitet völlig selbstständig. Das Computerprogramm durchforstet das Internet nach Informationen, die anschließend in bestimmte Kategorien unterteilt und indexiert werden. Auf diese Weise sind die gefundenen Informationen stets verfügbar. Die Vorgehensweise eines Crawlers entspricht grundsätzlich dem Surfverhalten der Webuser. Der Crawler gelangt über Hyperlinks zu weiteren Webseiten, wobei sämtliche Adressen gespeichert und indexiert werden. Auf den Index greift bei einer klassischen Suchmaschine eine spezielle Software zu. Die Arbeitsschritte des Crawlers werden von den Programmierern festgelegt. Die Art der Informationen, auf die der Crawler im Internet zugreift, wird durch die Aufgabenstellung definiert. Die weltweit größte Suchmaschine Google setzt zahlreiche Crawler ein, die täglich das Internet durchsuchen, um den Nutzern möglichst genaue Suchergebnisse zur Verfügung zu stellen.
Die Einsatzmöglichkeiten für Webcrawler sind vielfältig. Hauptsächlich werden sie von Suchmaschinen verwendet, um das Internet nach Informationen zu durchsuchen, die anschließend den Usern zugänglich gemacht werden. Spezielle Computerprogramme werden als Focused Crawler bezeichnet. Sie sind auf die Suche nach speziellen Themengebieten fokussiert und indexieren nur Webseiten, die für ein bestimmtes Thema Relevanz besitzen.
Spezielle Crawler tragen die Bezeichnung Harvester, was in der deutschen Übersetzung so viel wie „Erntemaschine“ bedeutet. Mithilfe dieser Software wird das Internet gezielt nach E-Mail-Adressen durchsucht, die nach dem Auffinden zu Vermarktungszwecken gesammelt und gespeichert werden. Häufig werden die Mailadressen für den Versand von Spam-Werbemails missbraucht. Webseitenbetreiber versuchen sich gegen das „Ernten“ von E-Mail-Adressen zu schützen, indem die Kontaktadresse durch Leerzeichen oder die Verwendung von Wörtern für Bots unleserlich gemacht wird.
Bei der Webanalyse werden Crawler eingesetzt, um Daten zu Seitenaufrufen zu sammeln oder eingehende bzw. ausgehende Links zu analysieren. Darüber hinaus werden Webcrawler von Vergleichsportalen eingesetzt, die Preis- oder Leistungsvergleiche zur Verfügung stellen. Nutzer, die nach der günstigsten Versicherung, dem billigsten Staubsauger oder dem besten Urlaubsschnäppchen suchen, werden auf derartigen Portalen fündig. Die Daten und Preise tragen Crawler durch die Durchforstung aller themenrelevanten Webseiten zusammen. Selbst bei der Suche nach urheberrechtlich geschützten Inhalten kommen Crawler zum Einsatz.
Webseitenbetreiber, die bestimmte Bereiche oder Seiten eines Webprojektes von der Indexierung ausschließen wollen, haben die Möglichkeit, Crawler auszusperren. Über die Datei robots.txt wird dem Crawler mitgeteilt, dass die betreffende Webseite nicht indexiert werden soll. Einen 100-prozentigen Schutz vor der Indexierung bietet dieses Verfahren allerdings nicht, da die Datei nicht von allen Crawlern beachtet wird. Dies gilt vor allem für Webseiten mit einem umfassenden Linkprofil. Der Bot gelangt in diesem Fall über Backlinks auf die Seite und indexiert sie unter Umständen. In den Ergebnislisten wird sie ohne Beschreibungstext veröffentlicht.
Google Search Console-Hilfe: Googlebot
Bing Webmaster Help & How-To: Übersicht der von Bing verwendeten Crawler
„*“ zeigt erforderliche Felder an
Ich bin dein erster Ansprechpartner:
Inhaber & Geschäftsführer
Marco Janck
Telefon:
030 | 9599987-20
E-Mail:
support@sumago.de
Adresse:
Motzener Str. 12-14
12277 Berlin
Schwerpunkte