gpt4 book ai didi

javascript - 如何绕过 Scrapy 中的 cloudflare bot/ddos 保护?

转载 作者:太空狗 更新时间:2023-10-29 17:30:39 25 4
gpt4 key购买 nike

我曾经偶尔抓取电子商务网页以获取产品价格信息。我已经有一段时间没有使用使用 Scrapy 构建的爬虫了,昨天我尝试使用它 - 我遇到了机器人保护问题。

它使用 CloudFlare 的 DDOS 保护,它基本上使用 JavaScript 评估来过滤掉禁用 JS 的浏览器(因此也包括爬虫)。评估函数后,将生成具有计算数字的响应。作为返回,服务发回附加到每个请求的两个身份验证 cookie,允许正常抓取站点。 Here是对其工作原理的描述。

我还找到了一个 cloudflare-scrape使用外部 JS 评估引擎计算数量并将请求发送回服务器的 Python 模块。我不确定如何将它集成到 Scrapy 中尽管。或者也许有不使用 JS 执行的更聪明的方法?最后,它是一种形式......

我愿意提供任何帮助。

最佳答案

所以我在 cloudflare-scrape 的帮助下使用 Python 执行了 JavaScript .

在你的爬虫中,你需要添加以下代码:

def start_requests(self):
for url in self.start_urls:
token, agent = cfscrape.get_tokens(url, 'Your prefarable user agent, _optional_')
yield Request(url=url, cookies=token, headers={'User-Agent': agent})

以及解析函数。就是这样!

当然,你需要先安装cloudflare-scrape,然后导入到你的爬虫中。您还需要安装一个 JS 执行引擎。我已经有了 Node.JS,没有什么可提示的。

关于javascript - 如何绕过 Scrapy 中的 cloudflare bot/ddos 保护?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33247662/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com