gpt4 book ai didi

python - 使用 BeautifulSoup 解析未关闭的 `
` 标签

转载 作者:太空狗 更新时间:2023-10-29 15:35:57 25 4
gpt4 key购买 nike

BeautifulSoup 具有连续关闭 <br> 的逻辑不完全符合我的要求的标签。例如,

>>> from bs4 import BeautifulSoup
>>> bs = BeautifulSoup('one<br>two<br>three<br>four')

HTML 将呈现为

one
two
three
four

我想把它解析成一个字符串列表,['one','two','three','four'] . BeautifulSoup 的标签关闭逻辑意味着当我请求所有 <br> 时我得到嵌套标签元素。

>>> bs('br')
[<br>two<br>three<br>four</br></br></br>,
<br>three<br>four</br></br>,
<br>four</br>]

有没有一种简单的方法可以得到我想要的结果?

最佳答案

import bs4 as bs
soup = bs.BeautifulSoup('one<br>two<br>three<br>four')
print(soup.find_all(text=True))

产量

[u'one', u'two', u'three', u'four']

或者,使用 lxml :

import lxml.html as LH
doc = LH.fromstring('one<br>two<br>three<br>four')
print(list(doc.itertext()))

产量

['one', 'two', 'three', 'four']

关于python - 使用 BeautifulSoup 解析未关闭的 `<br>` 标签,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13481408/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com