gpt4 book ai didi

postgresql - HTTP 错误 : 403 while parsing a website

转载 作者:行者123 更新时间:2023-11-29 12:38:35 25 4
gpt4 key购买 nike

所以我试图从这个网站解析 http://dl.acm.org/dl.cfm .该网站不允许网络抓取工具,因此我收到 HTTP 错误:403 禁止。

我正在使用 python,所以我尝试 Mechanize 填写表格(自动填写表格或单击按钮),但我又遇到了同样的错误。

我什至无法使用 urllib2.urlopen() 函数打开 html 页面,它给出了同样的错误。

谁能帮我解决这个问题?

最佳答案

如果该网站不允许网络抓取工具/机器人,您一开始就不应该在该网站上使用机器人。

但为了回答您的问题,我怀疑该网站正在阻止 urllib 的默认用户代理。您可能不得不通过制作自己的请求来将用户代理欺骗到已知的浏览器。

headers = {"User-Agent":"Mozilla/5.0 (X11; U; Linux i686) Gecko/20071127 Firefox/2.0.0.11"}
req = urllib2.Request("http://dl.acm.org/dl.cfm", headers=headers)
urllib2.urlopen(req)

编辑:我对此进行了测试并且有效。该站点基于用户代理主动阻止,以阻止制作不良的机器人忽略 robots.txt

关于postgresql - HTTP 错误 : 403 while parsing a website,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11696784/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com