gpt4 book ai didi

python - 在 python scrapy 中处理分页

转载 作者:行者123 更新时间:2023-11-28 22:49:31 24 4
gpt4 key购买 nike

我正在使用 scrapy python 来抓取特定站点。该站点具有以下形式的分页:

http://www.example.com/s/ref=lp_1805560031_pg_4?rh=n%3A976419031%2Cn%3A%21976420031%2Cn%3A1389401031%2Cn%3A1389432031%2Cn%3A1805560031& page=4&ie=UTF8&qid=1400668237

在这种情况下,如果我想从第 1 页抓取到第 30 页,我该如何处理分页;

我试过这个:

class MySpider(BaseSpider):
start_urls = ['http://www.example.com/s/ref=lp_1805560031_pg_4?rh=n%3A976419031%2Cn%3A%21976420031%2Cn%3A1389401031%2Cn%3A1389432031%2Cn%3A1805560031&page=%s&ie=UTF8&qid=1400668237' % page for page in xrange(1,30)]

但它不起作用

编辑:我将域用作 example.com 只是为了问题的目的

最佳答案

这应该适合你

start_urls = ['http://www.example.com/s/ref=lp_1805560031_pg_4?rh=n%3A976419031%2Cn%3A%21976420031%2Cn%3A1389401031%2Cn%3A1389432031%2Cn%3A1805560031&page={0}&ie=UTF8&qid=1400668237'.format(page) for page in xrange(1,30)]

关于python - 在 python scrapy 中处理分页,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23802617/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com