gpt4 book ai didi

python - 使用 BeautifulSoup4 从网页获取文本时出现 "None"和 'NoneType object...' 错误

转载 作者:行者123 更新时间:2023-12-01 04:12:22 25 4
gpt4 key购买 nike

我正在尝试从 BBC 体育页面提取主要标题(当前:“温格预测一月‘活跃’”)。 ID 为“lead-caption”,位于 <h2> 中和一个<a>标签。我正在使用Python。

from bs4 import BeautifulSoup
import urllib2
url = urllib2.urlopen("http://www.bbc.co.uk/sport/football/teams/arsenal")
soup=BeautifulSoup(url.read())
#Things I've tried
headline=soup.find('a', attrs={'id': 'lead-caption'})
print headline
#The above prints 'None'
headline1=soup.find('lead-caption').getText()
print headline1
#The above print "'NoneTpye' Object has no attirbute 'getText'
tag = soup.a
tag ['id'] = 'lead-caption'
type(tag)
print tag.string
#Error: NoneType object does not support item assignment

任何帮助将不胜感激。谢谢:)

最佳答案

您的代码几乎是正确的,您正在寻找错误的元素,这就是为什么您得到None,它应该是div:

headline=soup.find('div', attrs={'id': 'lead-caption'})
headline_text=headline.find('a').getText()
print headline_text

输出:

Wenger predicts 'active' January

关于python - 使用 BeautifulSoup4 从网页获取文本时出现 "None"和 'NoneType object...' 错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34753875/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com