gpt4 book ai didi

python - 获取没有内部子标签文本的 HTML 标签文本

转载 作者:太空宇宙 更新时间:2023-11-03 12:23:59 25 4
gpt4 key购买 nike

例子:

有时 HTML 是:

<div id="1">
<div id="2">
this is the text i do NOT want
</div>
this is the text i want here
</div>

其他时候只是:

<div id="1">
this is the text i want here
</div>

我只想获取一个标签中的文本,而忽略所有其他子标签。如果我运行 .text 属性,我会得到两者。

最佳答案

另一种可能的方法(我会在函数中实现):

def getText(parent):
return ''.join(parent.find_all(text=True, recursive=False)).strip()

recursive=False 表示您只想要直接子代,而不是嵌套子代。 text=True 表示您只需要文本节点。

使用示例:

from bs4 import BeautifulSoup

html = """<div id="1">
<div id="2">
this is the text i do NOT want
</div>
this is the text i want here
</div>
"""
soup = BeautifulSoup(html)
print(getText(soup.div))
#this is the text i want here

关于python - 获取没有内部子标签文本的 HTML 标签文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30159020/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com