gpt4 book ai didi

Python 简化 HTML 表格

转载 作者:太空宇宙 更新时间:2023-11-03 16:36:10 26 4
gpt4 key购买 nike

有没有一个好的方法(例如使用 BeautifulSoup)来简化 HTML 表格。我正在使用请求来获取表格并使用 BeautifulSoup 提取表格,但我需要表格来自:

<table>
<thead></thead>
<tbody>
<tr>
<td><a id="bar">Some text<br></br><span class="foobar">foo </span><small class="foo">bar!</small></a></td>
</tr>
</tbody>
</table>

至:

<table>
<thead></thead>
<tbody>
<tr>
<td>Some text\nfoo bar!</td>
</tr>
</tbody>
</table>

通过一种简单的方式,我想不必转到每个标签并使用soup.get_text()。

最佳答案

您可以用换行符替换 br:

h = """<table>
<thead></thead>
<tr>
<td><a id="bar">Some text<br><br/><span class="foobar">foo </span><small class="foo">bar!</small></a></td>
</tr>
</table>"""


from bs4 import BeautifulSoup

soup = BeautifulSoup(h)

td = soup.select_one("#bar")
td.br.replace_with("\n")

td.replace_with(td.text)


print(repr(soup))

这给你:

<html><body><table>\n<thead></thead>\n<tr>\n<td>Some text\nfoo bar!</td>\n</tr>\n</table></body></html>

关于Python 简化 HTML 表格,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37184039/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com