gpt4 book ai didi

python - BeautifulSoup:从 findAll ResultSet 中剥离 HTML 标签

转载 作者:行者123 更新时间:2023-11-28 16:40:38 25 4
gpt4 key购买 nike

我正在尝试从 soup.html.body.findAll('td', {'class':'yfnc_h'}) 的结果集中删除所有 HTML 标记

目前,ResultSet 有时包含嵌套的 <a href> , <td> , 和其他标签。我发现的唯一作用于 ResultSet(不是 soup 对象)的半解决方案是 RSelement.string

然而,.string无法处理带有多个嵌套标签的输入,例如

输入:<td class="yfnc_h" align="right">53.50</td>

输出:53.50

输入:<td class="yfnc_h" align="right"><b>51.97</b></td>

输出:None

输入:<td class="yfnc_h" align="right"><span id="yfs_c10_djx131116c00100000"> <b style="color:#000000;">0.00</b></span></td>

输出:无

如何从 ResultSet 输出中去除所有标签?

最佳答案

改为使用 .text 属性:

print RSelement.text

关于python - BeautifulSoup:从 findAll ResultSet 中剥离 HTML 标签,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19698898/

25 4 0