gpt4 book ai didi

python - Scrapy + 更改请求参数

转载 作者:太空宇宙 更新时间:2023-11-04 07:44:37 27 4
gpt4 key购买 nike

我正在使用 Scrapy爬取一个网站。我需要抓取的链接的形式为 http://www.somesite.com/details.html?pageId=<some_integer_id> . some_integer_id 的值从 1 延伸至 100 (不完全是 100)。我所做的是:

1.我创建了一个函数来生成一个 url 列表:

def generateURLs(self):
url_list = []
for i in range(1, 101):
url_list.append('http://www.somesite.com/details.html?pageId=%d' % i)
return url_list

2.使用此函数设置start_urls的值的 Scrapy像这样:

def __init__(self):
self.start_urls = self.generateURLs()

这是推荐的使用方式吗 Scrapy或者当我只需要更改请求参数的值时,还有其他更好的方法吗?

谢谢。

最佳答案

这个方法听起来不错,没有“黄金”方法。

但是,考虑到 Scrapy 调用 start_requests,你可以选择覆盖 start_requests,例如:

def start_requests(self):
for i in range(1, 101):
yield Request(url='http://www.somesite.com/details.html?pageId={0}'.format(i), callback=self.my_callback)

效果是一样的,代码更少。

关于python - Scrapy + 更改请求参数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10809243/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com