gpt4 book ai didi

python - 使用 Tor + Privoxy 抓取谷歌购物结果 : How to avoid block?

转载 作者:太空宇宙 更新时间:2023-11-03 12:08:13 25 4
gpt4 key购买 nike

我已经在我的服务器上安装了 Tor + Privoxy,它们工作正常! (已测试)。但是现在当我尝试使用 urllib2 (python) 抓取谷歌购物结果时,当然使用代理,我总是被谷歌阻止(有时是 503 错误,有时是 403 错误)。所以任何人有任何解决方案可以帮助我避免这个问题吗?将不胜感激!

我使用的源代码:

 _HEADERS = {
'User-Agent': 'Mozilla/5.0',
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Accept-Encoding': 'deflate',
'Connection': 'close',
'DNT': '1'
}

request = urllib2.Request("https://www.google.com/#q=iphone+5&tbm=shop", headers=self._HEADERS)

proxy_support = urllib2.ProxyHandler({"http" : "127.0.0.1:8118"})
opener = urllib2.build_opener(proxy_support)
urllib2.install_opener(opener)

try:
response = urllib2.urlopen(request)
html = response.read()
print html

except urllib2.HTTPError as e:
print e.code
print e.reason


请注意:当我不使用代理时,它可以正常工作!

最佳答案

你有没有安装 stem,Tor 的 Controller 库?只需几行代码,您就可以从 Tor 请求一个新身份。见:

https://stem.torproject.org/faq.html#how-do-i-request-a-new-identity-from-tor

只需使用异常来捕获您的 403 和 503 错误并通过请求新身份来处理它们,如上面的链接所示。祝你好运。

关于python - 使用 Tor + Privoxy 抓取谷歌购物结果 : How to avoid block?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19464427/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com