gpt4 book ai didi

python - 剥离 html 标签之间的空间

转载 作者:太空宇宙 更新时间:2023-11-04 08:12:20 24 4
gpt4 key购买 nike

我有一个包含一些 html 标签的字符串,如下所示:

"<p>   This is a   test   </p>"

我想去掉标签之间的所有多余空格。我尝试了以下方法:

In [1]: import re

In [2]: val = "<p> This is a test </p>"

In [3]: re.sub("\s{2,}", "", val)
Out[3]: '<p>This is atest</p>'

In [4]: re.sub("\s\s+", "", val)
Out[4]: '<p>This is atest</p>'

In [5]: re.sub("\s+", "", val)
Out[5]: '<p>Thisisatest</p>'

但我无法获得所需的结果,即 <p>This is a test</p>

我怎样才能做到这一点?

最佳答案

尝试使用类似 BeautifulSoup 的 HTML 解析器:

from bs4 import BeautifulSoup as BS
s = "<p> This is a test </p>"
soup = BS(s)
soup.find('p').string = ' '.join(soup.find('p').text.split())
print soup

返回:

<p>This is a test</p>

关于python - 剥离 html 标签之间的空间,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20161739/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com