gpt4 book ai didi

python - 网络抓取 python3 时出现用户代理错误

转载 作者:太空宇宙 更新时间:2023-11-03 19:54:31 24 4
gpt4 key购买 nike

这是我第一次使用网页抓取。当我使用 page = requests.get(URL) 时,它工作得很好,但是当我添加时

headers = {"User-Agent": 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_2) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.0.4 Safari/605.1.15'}

page = requests.get(URL, headers=headers)

我收到错误

    title = soup.find(id="productTitle").get_text()
AttributeError: 'NoneType' object has no attribute 'get_text'

这有什么问题吗?我应该带着标题辞职吗?

最佳答案

我认为该页面包含无效的 HTML,因此 BeatifulSoup 无法找到您的元素。

首先尝试美化 HTML:

import requests
from bs4 import BeautifulSoup

URL = 'https://www.amazon.com/dp/B07JP9QJ15/ref=dp_cerb_1'
headers = {
"User-Agent": 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_2) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.0.4 Safari/605.1.15'}
page = requests.get(URL, headers=headers)

pretty = BeautifulSoup(page.text,'html.parser').prettify()
soup = BeautifulSoup(pretty,'html.parser')
print(soup.find(id='productTitle').get_text())

返回:

Dell UltraSharp U2719D - LED 显示器 - 27 英寸

关于python - 网络抓取 python3 时出现用户代理错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59614989/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com