gpt4 book ai didi

Python:将 HTML 片段分成段落

转载 作者:搜寻专家 更新时间:2023-10-31 22:35:50 25 4
gpt4 key购买 nike

我有一段包含段落的 HTML。 (我的意思是 p 标签。)我想将字符串拆分成不同的段落。例如:

'''
<p class="my_class">Hello!</p>
<p>What's up?</p>
<p style="whatever: whatever;">Goodbye!</p>
'''

应该变成:

['<p class="my_class">Hello!</p>',
'<p>What's up?</p>'
'<p style="whatever: whatever;">Goodbye!</p>']

解决这个问题的好方法是什么?

最佳答案

如果您的字符串只包含段落,您可以使用精心制作的正则表达式和 re.split() 来摆脱困境。但是,如果您的字符串是更复杂的 HTML,或者不是始终有效的 HTML,您可能需要查看 BeautifulSoup包。

用法如下:

from BeautifulSoup import BeautifulSoup 

soup = BeautifulSoup(some_html)

paragraphs = list(unicode(x) for x in soup.findAll('p'))

关于Python:将 HTML 片段分成段落,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2276824/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com