gpt4 book ai didi

python - 我如何使用beautifulsoup解析文本中包含内部标签的html字符串

转载 作者:行者123 更新时间:2023-12-04 14:31:45 26 4
gpt4 key购买 nike

我在变量中有以下 html 内容,需要一种方法来通过删除内部标签从 html 中读取文本
html=<td class="row">India (ASIA) (<a href="/asia/india">india</a>&nbsp;–&nbsp;<a href="/asia/india">photos</a>)</td>

我只想提取字符串 India (ASIA)用 BeautifulSoup 解决这个问题。是否有可能或者我应该为此使用正则表达式。

最佳答案

这是使用beautifulsoup 的一种可能方法,通过在子元素<a> 之前提取文本内容。 :

from bs4 import BeautifulSoup

html = """<td class="row">India (ASIA) (<a href="/asia/india">india</a>&nbsp;–&nbsp;<a href="/asia/india">photos</a>)</td>"""
soup = BeautifulSoup(html)
result = soup.find("a").previousSibling
print(result.decode('utf-8'))

输出:
India (ASIA) (

进一步调整代码以删除尾随 (来自 result应该直截了当

关于python - 我如何使用beautifulsoup解析文本中包含内部标签的html字符串,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31656268/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com