gpt4 book ai didi

Python,获取html文档的文本值

转载 作者:行者123 更新时间:2023-11-30 23:34:02 46 4
gpt4 key购买 nike

我的问题很简单,我有一个包含html标签的字符串我只想从该字符串中获取实际的文本值,例如:

html 字符串:

<strong><p> hello </p><p> world </p></strong>

文本值: Hello World

有没有一个函数可以做到这一点?

最佳答案

您可以使用BeautifulSoupget_text() 函数:

from bs4 import BeautifulSoup


text = "<strong><p> hello </p><p> world </p></strong>"

soup = BeautifulSoup(text)
print soup.get_text() # prints " hello world "

或者,您可以使用nltk :

import nltk


text = "<strong><p> hello </p><p> world </p></strong>"
print nltk.clean_html(text) # prints "hello world"

另一个选择是使用 html2text ,但它的行为有点不同:例如strong 替换为 *

另请参阅相关帖子:Extracting text from HTML file using Python

希望有帮助。

关于Python,获取html文档的文本值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18473377/

46 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com