gpt4 book ai didi

python - 如何使用标签提取标签内的文本?

转载 作者:太空宇宙 更新时间:2023-11-04 11:10:30 33 4
gpt4 key购买 nike

我想使用 beautifulsoup 解析一个 html 页面。我想在不删除内部 html 标签的情况下提取标签内的文本。例如示例输入:

<a class="fl" href="https://stackoverflow.com/questio...">
Angular2 <b>Router link not working</b>
</a>

示例输出:

'Angular2 <b>Router link not working</b>'

我试过这个:

from bs4 import Beautifulsoup
string = '<a class="fl" href="https://stackoverflow.com/questio...">
Angular2 <b>Router link not working</b>
</a>'
soup = Beautifulsoup(string, 'html.parser')
print(soup.text)

但是它给出了:

'Angular2 Router link not working'

如何在不删除内部标签的情况下提取文本?

最佳答案

来自 here第一个答案很好。对于这个例子:

from bs4 import Beautifulsoup
string = '<a class="fl" href="https://stackoverflow.com/questio...">
Angular2 <b>Router link not working</b>
</a>'
soup = BeautifulSoup(string, 'html.parser')
soup.find('a').encode_contents().decode('utf-8')

它给出:

'Angular2 <b>Router link not working</b>'

关于python - 如何使用标签提取标签内的文本?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58337056/

33 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com