gpt4 book ai didi

python - 在 scrapy 中使用 Tor 代理

转载 作者:太空狗 更新时间:2023-10-30 00:19:48 26 4
gpt4 key购买 nike

我需要帮助在 Ubuntu 中设置 Tor 并在 scrapy 框架中使用它。

我做了一些研究并找到了这个指南:

class RetryChangeProxyMiddleware(RetryMiddleware):

def _retry(self, request, reason, spider):
log.msg('Changing proxy')
tn = telnetlib.Telnet('127.0.0.1', 9051)
tn.read_until("Escape character is '^]'.", 2)
tn.write('AUTHENTICATE "267765"\r\n')
tn.read_until("250 OK", 2)
tn.write("signal NEWNYM\r\n")
tn.read_until("250 OK", 2)
tn.write("quit\r\n")
tn.close()
time.sleep(3)
log.msg('Proxy changed')
return RetryMiddleware._retry(self, request, reason, spider)

然后在settings.py中使用它:

DOWNLOADER_MIDDLEWARE = {
'spider.middlewares.RetryChangeProxyMiddleware': 600,
}

然后您只想通过本地 tor 代理 (polipo) 发送请求,这可以通过以下方式完成:

tsocks scrapy crawl spirder 

有没有人可以确认此方法有效并且您获得了不同的 IP?

最佳答案

我正在使用这个片段:http://snipplr.com/view/66992/use-a-random-user-agent-for-each-request/

更新:损坏的链接已修复

关于python - 在 scrapy 中使用 Tor 代理,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11603423/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com