gpt4 book ai didi

python - 请求/BeautifulSoup VS robots.txt

转载 作者:行者123 更新时间:2023-12-01 21:52:01 25 4
gpt4 key购买 nike

我正在尝试通过单一输入来抓取某个网站。现在我已经用 Scrapy 构建了它,并且在所有调整(包括不遵守 robots.txt)之后它工作得很好,并且它自动循环运行以进行数据挖掘。

现在我需要做一些可以通过输入抓取单个页面的东西

问题是,我唯一能够访问的页面是 robots.txt 页面,而且我无法在网上找到任何关于绕过 robots.txt 的信息。

是否有关于如何使用 BS 或 Requests 进行操作的教程?

最佳答案

尝试传递这些 header ,您将获得预期的输出。

import requests

headers = { 'accept':'*/*',
'accept-encoding':'gzip, deflate, br',
'accept-language':'en-GB,en;q=0.9,en-US;q=0.8,hi;q=0.7,la;q=0.6',
'cache-control':'no-cache',
'dnt':'1',
'pragma':'no-cache',
'referer':'https',
'sec-fetch-mode':'no-cors',
'sec-fetch-site':'cross-site',
'user-agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36',
}

URL = "https://www.crunchbase.com/login"

response = requests.get(url=URL, headers=headers)
print(response.text)

希望这对您有所帮助!

关于python - 请求/BeautifulSoup VS robots.txt,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59183359/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com