gpt4 book ai didi

python - 编写 Python RegEx 以选择 HTML 中列表项的子集

转载 作者:行者123 更新时间:2023-11-28 04:42:26 24 4
gpt4 key购买 nike

我有一个文件夹的 Web 索引 View ...

<ul><li><a href="/sustainabilitymedia/pics/s5/"> Parent Directory</a></li> 
<li><a href="n150850_.jpg"> n150850_.jpg</a></li>
<li><a href="n150850_ss.jpg"> n150850_ss.jpg</a></li>
<li><a href="n150850q.jpg"> n150850q.jpg</a></li>
<li><a href="n150858_.jpg"> n150858_.jpg</a></li>
<li><a href="n150858_ss.jpg"> n150858_ss.jpg</a></li>
<li><a href="n150858q.jpg"> n150858q.jpg</a></li>
<li><a href="n150906_.jpg"> n150906_.jpg</a></li>
<li><a href="n150906_ss.jpg"> n150906_ss.jpg</a></li>
...

这个 list 一直在继续。我的目标是仅获取以 _ss.jpg 结尾的列表项,以便我可以呈现我的结果并将它们很好地显示在页面上以供演示。

我可以使用 BeautifulSoup 抓取页面,但从那里,我不确定如何过滤掉仅匹配特定模式的列表项。该页面位于 Basic Auth 后面,我在之前关于 BeautifulSoup 的问题中已经解决了这个问题。我也很高兴不用它。

有什么想法吗?

最佳答案

您可以使用正则表达式执行 findAll(),例如 soup_object.findAll('a', {'href': re.compile('.*_ss\.jpg')}).

关于python - 编写 Python RegEx 以选择 HTML 中列表项的子集,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4271215/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com