gpt4 book ai didi

python-3.x - 使用 BeautifulSoup 提取标题

转载 作者:行者123 更新时间:2023-12-03 16:25:01 31 4
gpt4 key购买 nike

我有这个

from urllib import request
url = "http://www.bbc.co.uk/news/election-us-2016-35791008"
html = request.urlopen(url).read().decode('utf8')
html[:60]

from bs4 import BeautifulSoup
raw = BeautifulSoup(html, 'html.parser').get_text()
raw.find_all('title', limit=1)
print (raw.find_all("title"))
'<!doctype html public "-//W3C//DTD HTML 4.0 Transitional//EN'

我想使用 BeautifulSoup 提取页面的标题但收到此错误
Traceback (most recent call last):
File "C:\Users\Passanova\AppData\Local\Programs\Python\Python35-32\test.py", line 8, in <module>
raw.find_all('title', limit=1)
AttributeError: 'str' object has no attribute 'find_all'

请任何建议

最佳答案

要导航汤,您需要一个 BeautifulSoup 对象,而不是一个字符串。所以删除你的 get_text()叫汤。

此外,您可以替换 raw.find_all('title', limit=1)find('title')这是等效的。

尝试这个 :

from urllib import request
url = "http://www.bbc.co.uk/news/election-us-2016-35791008"
html = request.urlopen(url).read().decode('utf8')
html[:60]

from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'html.parser')
title = soup.find('title')

print(title) # Prints the tag
print(title.string) # Prints the tag string content

关于python-3.x - 使用 BeautifulSoup 提取标题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35956045/

31 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com