gpt4 book ai didi

python - 无法从Python中的html页面中提取文本

转载 作者:太空宇宙 更新时间:2023-11-03 15:51:35 27 4
gpt4 key购买 nike

我对网络抓取非常陌生。我读到了 BeautifulSoup 并尝试使用它。但我无法提取具有给定类名“company-desc-and-sort-container”的文本。我什至无法从 html 页面中提取标题。这是我尝试过的代码:

from BeautifulSoup import BeautifulSoup
import requests

url= 'http://fortune.com/best-companies/'
r = requests.get(url)

soup = BeautifulSoup(r.text)

#print soup.prettify()[0:1000]
print soup.find_all("title")

letters = soup.find_all("div", class_="company-desc-and-sort-container")

我收到以下错误:

 print soup.find_all("title")
TypeError: 'NoneType' object is not callable

最佳答案

您正在使用 BeautifulSoup 版本 3,该版本不仅不再维护,而且没有 find_all()方法。而且,由于点符号用作 find() 的快捷方式,BeautifulSoup 尝试查找具有“find_all”标记名称的元素,结果为 None.然后,它将执行 None("title") ,结果为:

TypeError: 'NoneType' object is not callable

升级到BeautifulSoup版本4,替换:

from BeautifulSoup import BeautifulSoup

与:

from bs4 import BeautifulSoup

确保安装了beautifulsoup4软件包:

pip install --upgrade beautifulsoup4

关于python - 无法从Python中的html页面中提取文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41244412/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com