gpt4 book ai didi

python - Scrapy框架的代理IP

转载 作者:太空狗 更新时间:2023-10-29 18:01:38 27 4
gpt4 key购买 nike

我正在使用PythonScrapy 框架开发一个网络爬虫项目。它从电子商务购物网站抓取大约 10k 网页。整个项目运行良好,但在将代码从测试服务器移至生产服务器之前,我想选择一个更好的代理 ip 提供商服务,这样我就不必担心我的IP 阻塞 或拒绝访问网站我的蜘蛛。

到目前为止,我一直在使用 Scrapy 中的中间件从各种网站可用的免费代理 ip 列表中手动轮换 ip like this

现在我对我应该选择的选项感到困惑

  1. http://www.ninjasproxy.com/购买高级代理列表http://hidemyass.com/

  2. 使用 TOR

  3. 使用VPN 服务 喜欢http://www.hotspotshield.com/

  4. 任何优于以上三个的选项

最佳答案

以下是我目前使用的选项(取决于我的需要):

  • proxymesh.com - 较小项目的合理价格。该服务从未有过任何问题,因为它与 scrapy 开箱即用(我不隶属于他们)
  • 在亚马逊上启动多个 EC2 微型实例的自建脚本。然后我通过 SSH 进入机器并创建一个 SOCKS 代理连接,然后这些连接通过管道传输 delegated创建可与 scrapy 一起使用的普通 http 代理。 http 代理可以使用 haproxy 之类的东西进行负载平衡,或者您自己构建一个自定义中间件来轮换代理

后一种解决方案目前最适合我,每天可以毫无问题地插入大约 20-30GB 的流量。

关于python - Scrapy框架的代理IP,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19446536/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com