gpt4 book ai didi

web-scraping - 使用美丽汤的请求被阻止

转载 作者:行者123 更新时间:2023-12-04 05:11:34 25 4
gpt4 key购买 nike

当我使用Beautiful Soup发出请求时,我被阻止为“机器人”。

import requests
from bs4 import BeautifulSoup

reddit1Link = requests.get("https://www.reddit.com/r/tensorflow/comments/650p49/question_im_a_techy_35_year_old_and_i_think_ai_is/")
reddit1Content =BeautifulSoup(reddit1Link.content,"lxml")
print(reddit1Content)
然后我从Reddit收到消息,说他们怀疑我是机器人。
通过“BeautifulSoup ”有哪些可能的解决方案? (我已经尝试过Scrapy使用它的Crawlera,但是由于我缺乏python的知识,所以我不能使用它。)我不介意它是否是一项付费服务​​,只要它对初学者来说足够“直观”即可用。

最佳答案

被阻止为漫游器可能有多种原因。

当您按原样使用请求库时,阻止的最可能原因是缺少用户代理 header 。

抵御漫游器和爬虫的第一道防线是检查用户代理 header 是否来自主要浏览器之一,并阻止所有非浏览器用户代理。

简短版本:尝试以下操作:

import requests
from bs4 import BeautifulSoup

headers = requests.utils.default_headers()
headers.update({
'User-Agent': 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:52.0) Gecko/20100101 Firefox/52.0',
})

reddit1Link = requests.get("https://www.reddit.com/r/tensorflow/comments/650p49/question_im_a_techy_35_year_old_and_i_think_ai_is/", headers=headers)
reddit1Content =BeautifulSoup(reddit1Link.content,"lxml")
print(reddit1Content)

详细说明:
Sending "User-agent" using Requests library in Python

关于web-scraping - 使用美丽汤的请求被阻止,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43440397/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com