gpt4 book ai didi

python - 如何使用 BeautifulSoup 从页面中抓取数据

转载 作者:太空宇宙 更新时间:2023-11-04 04:09:37 24 4
gpt4 key购买 nike

问的问题很简单,但是对我来说,行不通,我也不知道!

我想从此页面抓取评分啤酒 https://www.brewersfriend.com/homebrew/recipe/view/16367/southern-tier-pumking-clone与 BeautifulSoup,但它不起作用。

这是我的代码:

import requests
import bs4
from bs4 import BeautifulSoup



url = 'https://www.brewersfriend.com/homebrew/recipe/view/16367/southern-tier-pumking-clone'

test_html = requests.get(url).text

soup = BeautifulSoup(test_html, "lxml")

rating = soup.findAll("span", class_="ratingValue")

rating

当我完成时,它不起作用,但如果我对另一个页面做同样的事情就可以了……我不知道。有人可以帮助我吗?评分结果为4.58

谢谢大家!

最佳答案

如果打印 test_html,您会发现收到 403 forbidden 响应。

您应该在 GET 请求中添加一个 header (至少是一个用户代理 : ))。

import requests
from bs4 import BeautifulSoup


headers = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.108 Safari/537.36'
}

url = 'https://www.brewersfriend.com/homebrew/recipe/view/16367/southern-tier-pumking-clone'

test_html = requests.get(url, headers=headers).text

soup = BeautifulSoup(test_html, 'html5lib')

rating = soup.find('span', {'itemprop': 'ratingValue'})

print(rating.text)

# 4.58

关于python - 如何使用 BeautifulSoup 从页面中抓取数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56576141/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com