gpt4 book ai didi

Python BeautifulSoup 从 HTML 中获取文本

转载 作者:太空宇宙 更新时间:2023-11-04 13:29:03 25 4
gpt4 key购买 nike

我有一些这样的 HTML 代码:

<p>aaa</p>bbb
<p>ccc</p>ddd

如何获取 'bbb' 和 'ddd'?

最佳答案

您可以阅读每个 p 标记的后续同级标记(请注意,这是非常特定于本文的,因此希望它可以扩展到您的情况):

In [1]: from bs4 import BeautifulSoup

In [2]: html = """\
...: <p>aaa</p>bbb
...: <p>ccc</p>ddd"""

In [3]: soup = BeautifulSoup(html)

In [4]: [p.next_sibling for p in soup.findAll('p')]
Out[4]: [u'bbb\n', u'ddd']

这会拾取尾随的换行符,因此您可以在需要时将其删除:

In [5]: [p.next_sibling.strip() for p in soup.findAll('p')]
Out[5]: [u'bbb', u'ddd']

一般的想法是,您在目标文本之前找到标签,然后找到下一个同级元素,这应该是您的文本。

关于Python BeautifulSoup 从 HTML 中获取文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14208280/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com