gpt4 book ai didi

python - 如何在scrapy框架python中的start_urls列表中构造url

转载 作者:行者123 更新时间:2023-12-01 03:40:12 25 4
gpt4 key购买 nike

我是 scrapy 和 python 的新手。
就我而言:

页面A:

http://www.example.com/search?keyword=city&style=1&page=1  
http://www.example.com/search?keyword=city&style=1&page=2
http://www.example.com/search?keyword=city&style=1&page=3

规则是:

    `for i in range(50):
"http://www.example.com/search?keyword=city&style=1&page=%s" % i`

页面B:

http://www.example.com/city_detail_0001.html  
http://www.example.com/city_detail_0100.html
http://www.example.com/city_detail_0053.html

没有规则,因为页面 B 与搜索关键字匹配。

所以,这意味着,如果我想从页面 B 获取一些信息,
首先,我必须使用页面A来筛选页面B的链接。
过去,我通常分两步:
1.我创建scrapy A,并在txt文件中抓取页面B的链接
2.在scrapy B中,我将txt文件读取到“start_urls”

现在,你能指导一下我如何在一个蜘蛛中构建“start_urls”吗?

最佳答案

start_requests方法就是你所需要的。之后,继续传递请求并在回调方法上解析响应主体。

class MySpider(Spider):
name = 'example'

def start_requests(self):
for i in range(50):
yield Request('myurl%s' % i, callback=self.parse)

def parse(self, response):
# get my information for page B
yield Request('pageB', callback=self.parse_my_item)

def parse_my_item(self, response):
item = {}
# real parsing method for my items
yield item

关于python - 如何在scrapy框架python中的start_urls列表中构造url,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39709687/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com