Hinweis: Der folgende Artikel hilft Ihnen dabei: Cloudflare umgehen: Was Scraper wissen müssen
Fast 20 % aller Websites, die Sie durchsuchen möchten, nutzen den Anti-Bot-Schutz von Cloudflare. Obwohl es sehr effizient und schwierig zu umgehen ist, gibt es dennoch Techniken, um es zu umgehen. Wir haben unsere besten Entwickler beauftragt, Ihnen die fünf besten Methoden zu zeigen Cloudflare umgehen.
Sehen wir uns zunächst mehr darüber an, wie diese Bot-Erkennung funktioniert!
Was ist Cloudflare und wie es funktioniert?
Cloudflare ist ein Content-Delivery-Netzwerk und Internet-Sicherheitsunternehmen, das Websites vor unerwünschtem Bot-Verkehr schützt. Es verwendet fortschrittliche Algorithmen für maschinelles Lernen, um zwischen menschlichen und automatisierten Anfragen zu unterscheiden und letztere zu blockieren, um Spam, DDoS-Angriffe und ähnliche Bedrohungen zu verhindern. Leider sind Web-Scraper in diesem Krieg Opfer.
Cloudflare erkennt Bots durch eine Kombination aus aktiven und passiven Techniken. Hier sind einige Beispiele:
- Botnet-Erkennung: Cloudflare sammelt Informationen über Geräte, IPs und Verhaltensmuster im Zusammenhang mit Bot-Aktivitäten und speichert sie in einem Katalog zur Echtzeitreferenz.
- Reputationsanalyse der IP-Adresse: Ihre IP-Reputation basiert auf mehreren Faktoren, darunter ISP, Online-Verhaltensverlauf und Geolokalisierung. Cloudflare nutzt dies, um die Vertrauenswürdigkeit Ihrer IP zu ermitteln.
- Analyse der HTTP-Anforderungsheader: Das Fehlen eines Benutzeragenten oder die Verwendung eines Nicht-Browser-Agenten wird schnell den Verdacht von Cloudflare wecken.
- CAPTCHAs: Diese Herausforderungen zielen darauf ab, zwischen menschlichem und Bot-Traffic zu unterscheiden. Es wird immer schwieriger, sie zu umgehen, deshalb ist es am besten, sie gar nicht erst auszulösen.
- Fingerabdrücke auf der Leinwand: Jedes Gerät verfügt über eine Web-Client-Klasse, die auf seinem Browser, Betriebssystem und seiner Grafikhardware basiert. Cloudflare verfügt über eine große Datenbank mit Canvas-Fingerabdrücken, um tatsächliche Benutzer von Bots zu unterscheiden.
- Ereignisverfolgung: Menschen interagieren mit einer Website ganz anders als Bots. Cloudflare verwendet Ereignis-Listener, um Aktionen wie Mausbewegungen und Tastenanschläge zu verfolgen und Abweichungen vom erwarteten Verhaltensmuster zu erkennen.
- JavaScript-Herausforderungen: Den Anfragen des Botnets fehlt der erforderliche JavaScript-Stack, um die Herausforderung zu bestehen, was dazu führt, dass Cloudflare sie blockiert.
Insgesamt verwendet Cloudflare diese und andere Methoden zum Sammeln Sensordaten und erkennen Sie Inkonsistenzen auf der Serverseite, um Bots wie Ihren Scraper zu blockieren. Sehen wir uns nun an, was Sie dagegen tun können!
So umgehen Sie Cloudflare
Schauen wir uns die fünf besten Methoden zur Umgehung von Cloudflare an.
Verwenden Sie eine API, um Cloudflare zu umgehen
Die Entwicklung und Pflege eines eigenen Solvers ist mit viel Arbeit verbunden. Aber zum Glück gibt es eine effektive Lösung: ZenRows.
ZenRows ist ein Web-Scraping-API, die in der Lage ist, die Schutzmaßnahmen von Cloudflare zu umgehen. Es kann sich um alles kümmern, was Ihnen im Weg steht, sodass Sie sich keine Gedanken über Erkennungstechniken, dynamische Verschleierung oder Lösung von Herausforderungen machen müssen.
Es verfügt über Premium-Funktionen wie rotierende Proxys für Privathaushalte, Geo-Targeting und WAF-Bypass und lässt sich nahtlos in jede Programmiersprache integrieren.
Verwenden Sie Cloudflare Solver
Sie haben wahrscheinlich Bibliotheken gesehen, die behaupten, sie könnten die Herausforderung von Cloudflare umgehen. In Wirklichkeit nützen die meisten davon nicht viel, da sie veraltet sind oder nicht aktiv gepflegt werden.
Allerdings gibt es immer noch einige relativ zuverlässige Optionen wie FlareSolverr, die Headless Selenium mit Undetected ChromeDriver verwenden, um eine Erkennung zu vermeiden. Die Nachteile bestehen darin, dass dieses Tool viel Speicher benötigt, schwer zu skalieren ist und bei fortgeschrittenen Anti-Bot-Techniken scheitern kann.
Vermeiden Sie CAPTCHAs
Beim Umgang mit CAPTCHAs haben Sie zwei Möglichkeiten: Lösen oder Vermeiden. Wenn Sie sich für Ersteres entscheiden, können Sie Dienste wie 2Captcha nutzen, bei dem echte Menschen die Tests manuell lösen. Allerdings wird das am Ende ziemlich teuer.
Alternativ ist es einfacher und kostengünstiger, CAPTCHAs zu vermeiden, aber einige der am besten geschützten Websites stellen jeden Besucher vor diese Herausforderung. In diesem Fall müssen Sie mithilfe der genannten Solver-Dienste eine Cloudflare-CAPTCHA-Umgehung erstellen oder Zeit und Ressourcen sparen, indem Sie verhindern, dass das CAPTCHA angezeigt wird.
Wenn Sie Ihr Ziel jedoch sorgfältig analysieren, stellen Sie möglicherweise fest, dass es nur zu bestimmten Zeiten oder Tagen maximale Sicherheitsmaßnahmen anwendet. Geben Sie also erst auf, wenn Sie Ihre Möglichkeiten ausgeschöpft haben.
Machen Sie sich mit Cloudflare CDN vertraut
Kurzgesagt, Cloudflare kann Sie nicht blockieren, wenn Ihre Anfrage nicht an seinen Server, sondern direkt an den Ursprungsserver geht. Ziemlich ordentlich! Leider ist dies nur in einigen Fällen möglich, sodass Sie hier einen Versuch-und-Irrtum-Prozess durchlaufen müssen.
Zuerst müssen Sie die Ursprungs-IP finden. Das wird nicht einfach sein, da Cloudflare die DNS-Einträge seiner geschützten Websites verbirgt. Deshalb sollten Sie ungeschützte Subdomains, Mailings oder alte Dienste überprüfen. Alternativ können Sie Datenbanken wie Shodan besuchen oder Tools wie CloudFlair nutzen.
Sobald Sie die IP haben, müssen Sie einen Weg finden, die Daten anzufordern. Das Einfügen in die URL-Leiste Ihres Browsers funktioniert nicht immer. Stattdessen benötigen Sie programmgesteuerte Tools wie cURL oder Python Requests. Es ist eine gute Lösung, aber sie wird nicht jedes Mal funktionieren. Schauen wir also mal, was sonst noch auf dem Tisch liegt!
Umgehen Sie das Wartezimmer und entwickeln Sie die Herausforderung rückwärts
Jedes Mal, wenn Sie eine durch Cloudflare geschützte Website besuchen, werden Sie in den Warteraum versetzt, sodass Ihr Browser Herausforderungen lösen kann, um zu beweisen, dass Sie ein Mensch sind. Abhängig vom Erfolg werden Sie entweder zu der Seite weitergeleitet, die Sie besuchen möchten, oder Sie erhalten den Bildschirm „Zugriff verweigert“ und die Möglichkeit, eine CAPTCHA-Herausforderung zu lösen.
Die Möglichkeit, dies zu umgehen, besteht darin, die JavaScript-Herausforderung zu analysieren, um den dahinter stehenden Algorithmus zu verstehen. Dadurch können Sie das Skript rückentwickeln. Sicherlich nicht einfach, aber die Mühe lohnt sich. Mal sehen, ob es eine einfachere Technik gibt.
Abschluss
Wie Sie sehen, macht Cloudflare seinem Namen alle Ehre. Das Umgehen der Bot-Erkennungsmaßnahmen erfordert viel Zeit, Mühe und andere Ressourcen. Und doch ist es möglich. Wir haben die besten Methoden besprochen, um dies zu erreichen, sowie deren Nachteile und Einschränkungen.
Insgesamt ist die Verwendung einer Web-Scraping-API wie ZenRows die sicherste Option, da sie den Großteil der Arbeit mit erweiterten Funktionen selbst erledigt, um den Verdacht von Cloudflare zu vermeiden.