gpt4 book ai didi

python - 使用 BeautifulSoup4 (python 3.4) 删除所有 HTML 标签

转载 作者:行者123 更新时间:2023-12-01 05:08:45 25 4
gpt4 key购买 nike

我已经尝试解决这个问题有一段时间了,但我设法做到这一点的唯一方法是使用复杂的 while 循环。

我想输入以下内容:

"<td colspan='2' class='ToEx'>This is a test (<i> to see </i> this works) and I really hope it does</td>"

并输出:

"This is a test (to see if this works) and I really hope it does"

本质上,我想删除所有带有“< >”的内容以及中间的任何内容。我能用几个命令做的最好的事情是:

"This is a test (<i> to see </i> this works) and I really hope it does"

但是我只剩下这些烦人的家伙了:<i></i>

这是我的代码:

from bs4 import BeautifulSoup

text = "<td colspan='2' class='ToEx'>This is a test (<i> to see </i> this works) and I really hope it does</td>"
soup = BeautifulSoup(text)
content = soup.find_all("td","ToEx")
content[0].renderContents()

最佳答案

只需打印标签的 .text 属性,它就会为您提供其文本

print(content[0].text)

输出:

This is a test ( to see  this works) and I really hope it does

关于python - 使用 BeautifulSoup4 (python 3.4) 删除所有 HTML 标签,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24593302/

25 4 0