gpt4 book ai didi

Python BeautifulSoup 返回的网页与我看到的不同

转载 作者:太空宇宙 更新时间:2023-11-04 04:17:20 24 4
gpt4 key购买 nike

我对网络抓取或 Python 都很陌生,所以如果这是一个愚蠢的问题,请提前致歉。

url=https://infoweb.newsbank.com/apps/news/results?sort=YMD_date%3AD&p=AWNB&t=&maxresults=20&f=advanced&b=results&val-base-0=January%201%2C%202005&fld-base-0=YMD_date&bln-base-1=and&val-base-1=drone%2C%20unmanned%20aerial%20vehicle%2C%20UAV&fld-base-1=alltext
page = requests.get(url, allow_redirects=True)
allcont = BeautifulSoup(page.text, 'html.parser')
allcont.find_all('div',class_="search-hits__meta--total_hits")

当我在浏览器中输入 url 时,我被定向到一个页面,该页面包含 2005 年 1 月 1 日在 AccessWorldNews 网站上搜索关键字“无人机”的结果。我感兴趣的元素是返回的结果数——在本例中为 2,可以通过 `'div',class_="search-hits__meta--total_hits"' 隔离。

然而,beautifulsoup 找到我的网页内容与我在浏览器中看到的完全不同。查看文本,它似乎是一个中间网页,用户可以在其中输入用户名和密码,但有趣的是,在我看来,我从来没有输入任何用户名和密码来访问上面的 url。

我很想了解如何让 beautifulsoup 转到与我将 url 放入浏览器时看到的相同的页面。非常感谢任何帮助!

最佳答案

您提供的 URL 会为任何外部访问者加载用户登录页面。所以 BeautifulSoup (BS) 也会为您提供该页面的 html。要获取登录后找到的搜索结果,您需要先登录该页面,然后在该页面中使用BS解析器。但是 BS 不支持登录。相反,使用 selenium 进行浏览器自动化,通过 selenium 执行登录并获取登录页面的 html。引用selenium中的get_attribute()。

关于Python BeautifulSoup 返回的网页与我看到的不同,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55174011/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com