gpt4 book ai didi

Python -- 正则表达式 -- 如何在两组字符串之间找到一个字符串

转载 作者:太空狗 更新时间:2023-10-29 22:01:32 24 4
gpt4 key购买 nike

考虑以下几点:

<div id=hotlinklist>
<a href="foo1.com">Foo1</a>
<div id=hotlink>
<a href="/">Home</a>
</div>
<div id=hotlink>
<a href="/extract">Extract</a>
</div>
<div id=hotlink>
<a href="/sitemap">Sitemap</a>
</div>
</div>

您将如何在 python 中使用正则表达式删除站点地图行?

<a href="/sitemap">Sitemap</a>

下面可以用来拉出 anchor 标签。

'/<a(.*?)a>/i'

但是,有多个 anchor 标记。还有多个热链接,所以我们也不能真正使用它们吗?

最佳答案

不要使用正则表达式。使用 BeautfulSoup ,一个 HTML 解析器。

from BeautifulSoup import BeautifulSoup

html = \
"""
<div id=hotlinklist>
<a href="foo1.com">Foo1</a>
<div id=hotlink>
<a href="/">Home</a>
</div>
<div id=hotlink>
<a href="/extract">Extract</a>
</div>
<div id=hotlink>
<a href="/sitemap">Sitemap</a>
</div>
</div>"""

soup = BeautifulSoup(html)
soup.findAll("div",id="hotlink")[2].a

# <a href="/sitemap">Sitemap</a>

关于Python -- 正则表达式 -- 如何在两组字符串之间找到一个字符串,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/849912/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com