gpt4 book ai didi

python - 在python中使用xpath隔离href内容

转载 作者:行者123 更新时间:2023-12-01 09:10:29 25 4
gpt4 key购买 nike

我正在寻找位于页面底部的 kijji 上“下一页”按钮的 href 内的文本。

链接:https://www.kijiji.ca/b-apartments-condos/edmonton/c37l1700203

href 是这个:

href="/b-apartments-condos/edmonton/page-2/c37l1700203"

主要问题是,在“分页类”中有多个 href,并且并不总是按相同的顺序(并不总是第 10 个 href)。

这是我到目前为止所拥有的:

response.xpath("//*[@class='pagination']/a[10]/@href").extract_first()

如有任何帮助,我们将不胜感激。

最佳答案

如果需要Next byutton的超引用值,可以使用下面的XPath:

//a[@title="Next"]/@href

您可以按如下方式使用它:

import requests
from lxml import html

response = requests.get("https://www.kijiji.ca/b-apartments-condos/edmonton/c37l1700203").content
source = html.fromstring(response)
url = source.xpath('//a[@title="Next"]/@href')[0]

关于python - 在python中使用xpath隔离href内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51697090/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com