gpt4 book ai didi

beautifulsoup - 如何在 python 中用 soup 检索最后一个页码

转载 作者:行者123 更新时间:2023-12-02 04:24:53 24 4
gpt4 key购买 nike

我想知道从一段“li”标签中检索最后一页页码的最佳soup方法是什么,这里有一个例子:

                <li class="active">
<span>1</span>
</li>

<li>
<a href="https://www.test.com/page=2">2</a>
</li>

<li>
<a href="https://www.test.com/page=3">3</a>
</li>

<li>
<a href="https://www.test.com/page=4">4</a>
</li>


<li class="pages disabled">
<span>&hellip;</span>
</li>

<li class="next">
<a href="https://www.test.com/page=2">
<i class="icon-chevron-right"


></i>
</a>
</li>

<li>
<a href="https://www.test.com/page=30">Last</a>
</li>

在这种情况下,我需要获取“30”

的最后页码

非常感谢。在 SO 上看到类似的问题,但不适用于我的情况。

更新:

感谢 Bitto 的回答。

上面的 HTML 源实际上不准确,因为它们是从页面源手动复制的,我当前代码中使用的是 soup 的东西,结果集生成如下:

代码:

source = requests.get(url).text
soup = BeautifulSoup(source,features="html.parser").findAll("li")

enter image description here

最佳答案

您可以找到带有文本'Last'a 标签,然后从href 属性中获取页码。

html="""
<li class="active"><span>1</span></li>
<li><a href="https://www.test.com/page=2">2</a></li>
<li><a href="https://www.test.com/page=3">3</a></li>
<li><a href="https://www.test.com/page=4">4</a></li>
<li class="pages disabled"><span>&hellip;</span></li>
<li class="next"><a href="https://www.test.com/page=2"><i class="icon-chevron-right"></i></a></li>
<li><a href="https://www.test.com/page=30">Last</a></li>
"""
from bs4 import BeautifulSoup
soup=BeautifulSoup(html,'html.parser')
a=soup.find('a',text='Last')
last_page=a['href'].split('=')[1]
print(last_page)

输出

30

关于beautifulsoup - 如何在 python 中用 soup 检索最后一个页码,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55553975/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com