gpt4 book ai didi

python - 替代 scrapy 代理

转载 作者:太空宇宙 更新时间:2023-11-04 08:54:21 25 4
gpt4 key购买 nike

除了在 scrapy 中使用代理之外,还有其他选择吗?源站点已阻止我用于运行蜘蛛程序的服务器。我在项目中添加了 ProxyMiddleware 并随机化了代理。但问题是代理也被源站点阻止。我还将 DOWNLOAD_DELAY 设置为 5,但问题仍然存在。除了转移到新服务器之外,还有其他不使用代理访问该站点的方法吗?

最佳答案

使用 tor 和 privoxy 解决了我的阻塞问题。

  1. 安装器

    $ sudo apt-get install tor
  2. 安装polipo

    $ sudo apt-get install polipo
  3. 配置 privoxy 以使用 tor socks 代理。

    $sudo nano /etc/polipo/config

    在文件末尾添加以下行。

socksParentProxy = localhost:9050

diskCacheRoot=""

disableLocalInterface=""

  1. 在 middlewares.py 中添加代理中间件。

    class ProxyMiddleware(object):
    def process_request(self, request, spider):
    request.meta['proxy'] = 'http://localhost:8123'
    spider.log('Proxy : %s' % request.meta['proxy'])
  2. 在项目设置中激活 proxyMiddleware。

    DOWNLOADER_MIDDLEWARES = {
    'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': 110,
    'project_name.middlewares.ProxyMiddleware': 100
    }

关于python - 替代 scrapy 代理,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31670410/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com