gpt4 book ai didi

python - 从返回 null 的元标记 beautifulsoup 中提取数据

转载 作者:行者123 更新时间:2023-11-30 22:20:27 27 4
gpt4 key购买 nike

我试图从这个网站上抓取汽车的行驶里程 https://cazana.com/uk/car/RA51GZJ

我想要的数据是里程(128,375英里)当我尝试抓取此页面时,我没有得到任何返回我最初尝试跳过页面正文,但没有成功

url = "https://cazana.com/uk/car/RA51GZJ"
page2 = requests.get(url)
soup2 = BeautifulSoup(page2.content, 'html.parser')
result = soup2.findAll('meta', attrs={'name': 'description'})

print (result)

返回[]

这是html文件

 <meta name="viewport" content="width=device-width, initial-scale=1">
<meta name="description" content="RA51GZJ - 2001 NISSAN ALMERA. Colour silver, 128,375 miles, 3 previous owners. Registered in Reading. Tax, MOT &amp; Vehicle history check available.">

谢谢

最佳答案

您的请求不成功,这就是您找不到正确标签的原因。 返回的内容是错误页面。
您可以通过更改您的User-Agent来绕过此错误 header 到浏览器的 header :

import requests
from bs4 import BeautifulSoup

url = 'https://cazana.com/uk/car/RA51GZJ'

headers = {
'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64)'
'AppleWebKit/537.36 (KHTML, like Gecko)'
'Chrome/64.0.3282.167 Safari/537.36'
}

result = requests.get(url, headers=headers)
soup = BeautifulSoup(result.content, 'html.parser')
match = soup.find('meta', name='description')

if match:
print(match.attrs['content'])
else:
print('Request unsuccessful')

请注意,一次过多的请求也可能会触发不成功的请求。

关于python - 从返回 null 的元标记 beautifulsoup 中提取数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48845652/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com