作者热门文章
- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
考虑以下几点:
<div id=hotlinklist>
<a href="foo1.com">Foo1</a>
<div id=hotlink>
<a href="/">Home</a>
</div>
<div id=hotlink>
<a href="/extract">Extract</a>
</div>
<div id=hotlink>
<a href="/sitemap">Sitemap</a>
</div>
</div>
您将如何在 python 中使用正则表达式删除站点地图行?
<a href="/sitemap">Sitemap</a>
下面可以用来拉出 anchor 标签。
'/<a(.*?)a>/i'
但是,有多个 anchor 标记。还有多个热链接,所以我们也不能真正使用它们吗?
最佳答案
不要使用正则表达式。使用 BeautfulSoup ,一个 HTML 解析器。
from BeautifulSoup import BeautifulSoup
html = \
"""
<div id=hotlinklist>
<a href="foo1.com">Foo1</a>
<div id=hotlink>
<a href="/">Home</a>
</div>
<div id=hotlink>
<a href="/extract">Extract</a>
</div>
<div id=hotlink>
<a href="/sitemap">Sitemap</a>
</div>
</div>"""
soup = BeautifulSoup(html)
soup.findAll("div",id="hotlink")[2].a
# <a href="/sitemap">Sitemap</a>
关于Python -- 正则表达式 -- 如何在两组字符串之间找到一个字符串,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/849912/
我是一名优秀的程序员,十分优秀!