gpt4 book ai didi

web-scraping - 如何在爬行中动态生成start_urls?

转载 作者:行者123 更新时间:2023-12-03 10:48:59 26 4
gpt4 key购买 nike

我正在抓取一个可能包含很多 start_urls 的网站, 喜欢:

http://www.a.com/list_1_2_3.htm

我要填充 start_urls喜欢 [list_\d+_\d+_\d+\.htm] ,
并从 URL 中提取项目,例如 [node_\d+\.htm]在爬行过程中。

我可以用 CrawlSpider实现这个功能?
以及如何生成 start_urls动态爬行?

最佳答案

动态生成 URL 的最佳方法是覆盖 start_requests蜘蛛的方法:

from scrapy.http.request import Request

def start_requests(self):
with open('urls.txt', 'rb') as urls:
for url in urls:
yield Request(url, self.parse)

关于web-scraping - 如何在爬行中动态生成start_urls?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9322219/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com