Vergleichsseiten wie Idealo und Billiger.de greifen bei ihrem Geschäftsmodell auf eine Technik zurück, die sich Web Scraping nennt. Die Funktion ist leicht erklärt: Software-Tools lesen den Inhalt verschiedener Webseiten aus und speichern diese für eigene Zwecke ab. Schwierig wird das Vorgehen jedoch, wenn rechtliche Kriterien genauer betrachtet werden.

Worum es sich beim Web Scraping handelt, inwiefern es dem Web Crawling ähnelt und warum das Vorgehen nicht immer legal ist, klären wir hier genauer.

Download: SEO-Leitfaden: So nutzen Sie Pillar-Seiten und interne Verlinkungen

Wie funktioniert Web Scraping?

Web Scraping kann sowohl manuell als auch mittels spezieller Software durchgeführt werden. Dabei gibt es verschiedene Vorgehensweisen: Manuelles Web Scraping, Software Scraping, Text Pattern Matching, HTTP-Manipulation, Data Mining, HTML-Parser und das Auslesen von Mikroformaten gehören alle zum Web Scraping.

Die wichtigsten Anwendungen sind dabei das manuelle Web Scraping und das Software Scraping. Während beim manuellen Screen Scraping in den Quellcode gegangen und manuell kopiert wird, helfen Software Scraping-Tools dabei, die sichtbaren Informationen einer Website auszulesen, abzuspeichern und schließlich für eigene Zwecke weiterzuverarbeiten.

Ist Web Scraping legal?

Web Scraping ist in vielen Fällen legal. Der Bundesgerichtshof hat dazu 2014 festgelegt, dass Web Scraping immer dann rechtens ist, wenn dabei keine Schutzwand überschritten wird. In diesem Fall werden nämlich lediglich Informationen gesammelt, die bereits auf den Webseiten öffentlich einsehbar sind.

Anders sieht das Ganze jedoch aus, wenn beispielsweise Bilder, Texte oder andere Content-Formate gescraped und anschließend auf der eigenen Website verwendet werden. In diesem Fall greift nämlich das Urhebergesetz, das die Creator vor ungewollter und unentgeltlicher Verwendung ihrer Werke schützt.

Illegal ist das Screen Scraping außerdem immer dann, sobald Firewalls oder andere schützende Elemente einer Website überwunden werden. In diesem Fall werden nämlich nicht ausschließlich Inhalte ausgelesen, die auf der Website sichtbar sind. Darunter fallen auch personenbezogene Daten, die laut dem Gesetz der DSGVO eindeutig nur unter Einwilligung gespeichert und verwendet werden dürfen.

Web Crawling vs. Web Scraping: Das sind die Unterschiede

Web Crawling und Web Scraping werden häufig verwechselt oder als Synonyme verwendet. Dabei gibt es wichtige Unterschiede: Web Crawling wird in der Regel von Suchmaschinen durchgeführt, um eine Seite zu indexieren. Der Unterschied zum Web Scraping liegt darin, dass die Daten lediglich angesehen werden, damit eine Seite über die organische Suche gefunden werden kann.

Im Beispiel von Google nutzen die Webcrawler die Daten nicht, um sie für eigene Zwecke zu verwenden, sondern um es Userinnen und Usern überhaupt zu ermöglichen, die Website über Google zu finden und aufzurufen.

Web Scraping hingegen liest die Daten aus und speichert sie auch ab. Somit können die Informationen für eigene Zwecke weiterverwendet werden – teilweise auch für illegale Aktivitäten. Obwohl der Unterschied der beiden Techniken im Detail liegt, ist er für die Bewertung entscheidend.

Drei Web-Scraping-Tools, die Ihnen beim Website-Vergleich helfen

Preisanbieter-Portale, Onlineshops und auch Advertising-Agenturen können sich mithilfe der Web-Scraping-Methode wichtige Vorteile verschaffen. So kann beispielsweise der beste Preis ausgelesen und angeboten werden. In der SEO können Sie so beispielsweise wichtige Keywords identifizieren, die Ihre Konkurrenz nutzt.

Die folgende Web-Scraping-Software hilft Ihnen, die gewünschten Informationen in Windeseile auszulesen und zu speichern – ohne dass Sie in den Quellcode der Seite gehen müssen.

Scrapestack

Mit der kostenlosen Version von Scrapestack können Sie bis zu 100 Anfragen stellen, um Content in wenigen Minuten von unzähligen Webseiten zu scrapen. Mehr als 100 Geo-Locations sind darüber hinaus in den kostenpflichtigen Paketen enthalten. Wichtige Funktionen wie HTTPS Encryption oder JavaScript Rendering sind bei Scrapestack ebenfalls enthalten.

ScraperAPI

ScraperAPI punktet vor allem durch den Fakt, dass es von so vielen Unternehmen verwendet und deshalb besonders selten blockiert wird. Sie können den HTML-Code mit einem API-Abruf auslesen, da das Tool Proxies, Browser und CAPTCHAs beherrscht. 5.000 Abfragen sind zunächst kostenfrei, danach startet die Software ab 29 US-Dollar pro Monat.

ScrapingBee

Die cloudbasierte Software ScrapingBee ist hervorragend geeignet für Web-Scraping-Aufgaben wie beispielsweise Preisüberwachung und das Extrahieren von Bewertungen – ganz ohne blockiert zu werden. Unternehmen wie Zapier, Contently und SAP vertrauen auf den Service, der JavaScript Rendering, Geolocation und einen riesigen Proxy-Pool anbietet.

Wie Sie sich vor ungewolltem Website-Scraping schützen können

Web Scraping wird auch – und vor allem – von Hackern verwendet, um die Daten von Webseiten illegal zu missbrauchen. Ziele, die damit verfolgt werden, sind:

  • Content Grabbing: Der Inhalt einer Website wird bei diesem Vorgehen 1:1 kopiert und für die eigene Seite verwendet. Da Content unter das Urheberschutzrecht fällt, machen sich Anwender damit strafbar.
  • Phishing: Beim Phishing werden sensible und personenbezogene Daten einer Website ausgelesen. Kriminelle speichern dabei beispielsweise Kundendaten, um auf Konten oder sonstige Accounts der Verbraucherschaft zuzugreifen.
  • Performance-Beeinträchtigung: Um die Ladezeit einer Website zu behindern, werden extrem viele Bots auf eine Seite geschickt, die die Seite stetig aktualisieren und somit die Gesamtperformance verschlechtern. Für Unternehmen ist häufig abwandernde Kundschaft die Folge.

Um sich vor diesen illegalen Vorgehensweisen des Web Scraping zu schützen, können Sie verschiedene Sicherheitsvorkehrungen vornehmen. Dazu gehören:

  • CAPTCHA: Bei dem Test wird ermitteln, ob es sich beim Webseitenbesucher um einen Bot oder um einen Menschen handelt.
  • Robots.txt: Jede Website verfügt über eine robots.txt-Datei. In dieser legen Sie fest, welche Inhalte Ihrer Seite von Crawlern und Bots ausgelesen werden dürfen und welche nicht.
  • Firewall: Eine Firewall ist eine klassische Schutzwand Ihrer Website-Inhalten. Diese schützt Sie vor möglichen Hacker-Angriffen mittels Web Scraping.
  • Bot Management: Definieren Sie ganz klar, welche Bots Ihre Website aufrufen dürfen und welche nicht. Umso gezielter Ihr Bot Management ist, umso schwieriger machen Sie es Kriminellen, den Inhalt Ihrer Website auszulesen.

Fazit: Screen-Scraping ist nicht illegal, aber mit Vorsicht zu genießen

Web Scraping bietet für Unternehmen jede Menge Vorteile, um Informationen, die Sie mühselig suchen und kopieren müssten, mit einem Klick zu ermitteln. Dennoch steht die Methode auch häufig in Verbindung mit illegalen Aktivitäten. Webseiten sollten sich deshalb durch Sicherheitseinrichtungen wie einer Firewall, Bot Management, CAPTCHA-Abfragen und einer richtig aufgesetzten robots.txt-Datei vor Angriffen dieser Art schützen.

uncrawl pillar seiten und interne verlinkungen

Titelbild: Rudzhan Nagiev / iStock / Getty Images Plus

Ursprünglich veröffentlicht am 14. Dezember 2021, aktualisiert am Dezember 14 2021

Themen:

SEO