gpt4 book ai didi

python - 从网站中删除 html 标签 - BeautifulSoup

转载 作者:行者123 更新时间:2023-12-01 01:50:06 26 4
gpt4 key购买 nike

我正在从网站抓取数据。该网站有这样的代码:

<span class="demo-span">
<b>Tag b:</b>
<a href="...">Hello</a>
world!
</span>

这是我尝试过的:

new_data = data.find("span",{"class":"demo-span"})
print(new_data.get_text())

预期输出:

Hello world!

但实际输出是:

Tag b: Hello world!

最佳答案

您可以使用decompose()删除标签。

html = '''
<span class="demo-span">
<b>Tag b:</b>
<a href="...">Hello</a>
world!
</span>'''

soup = BeautifulSoup(html, 'html.parser')

new_data = soup.find("span", {"class": "demo-span"})
new_data.b.decompose()
print(new_data.get_text(' ', strip=True))
# Hello world!

关于python - 从网站中删除 html 标签 - BeautifulSoup,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50811616/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com