gpt4 book ai didi

python - 使用 BeautifulSoup 提取带有嵌入链接的文本

转载 作者:太空宇宙 更新时间:2023-11-03 14:17:32 25 4
gpt4 key购买 nike

我正在尝试提取网络文章的文本,其中包含链接作为文本的一部分。一个例子是:

<p>Here is some text with <a href="https://www.example.com"> this part as a link</a>
which we will look at.</p>

我尝试过使用

table.findAll('p', text = True)

数据,但此命令会忽略所有包含 url 的“p”标签(也就是说,它不会选取第一个 block 中的示例)。我的问题是,如何从“p”标签中提取文本,同时还包含嵌入的链接,以及如何删除链接的 url 并仅保留“此部分作为链接”突出显示的文本?非常感谢任何帮助。

最佳答案

本质上是这样的:

>>> import bs4
>>> HTML = '''\
... <p>Here is some text with <a href="https://www.example.com"> this part as a link</a>
... which we will look at.</p>'''
>>> soup = bs4.BeautifulSoup(HTML, 'lxml')
>>> [p.text for p in soup.findAll('p')]
['Here is some text with this part as a link\nwhich we will look at.']

当然,您很可能想要替换新行和多余的空白。

关于python - 使用 BeautifulSoup 提取带有嵌入链接的文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48154085/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com