gpt4 book ai didi

Python Mechanize HTTP 错误 403 : request disallowed by robots. txt

转载 作者:太空宇宙 更新时间:2023-11-04 10:43:52 36 4
gpt4 key购买 nike

<分区>

因此,我创建了一个 Django 网站来从网络上抓取文章的新闻网页。即使我使用 Mechanize ,他们仍然告诉我:

HTTP Error 403: request disallowed by robots.txt 

我什么都试过了,看看我的代码(只是要抓取的部分):

br = mechanize.Browser()
page = br.open(web)
br.set_handle_robots(False)
br.set_handle_equiv(False)
br.addheaders = [('User-agent', 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.1) Gecko/2008071615 Fedora/3.0.1-1.fc9 Firefox/3.0.1')]
#BeautifulSoup
htmlcontent = page.read()
soup = BeautifulSoup(htmlcontent)

我也尝试在 set_hande_robots(Flase) 等之前使用 de br.open。它也没有用。

有什么方法可以访问这些网站?

36 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com