gpt4 book ai didi

python - 在同一个 URL 上多次运行 Scrapy

转载 作者:太空宇宙 更新时间:2023-11-04 02:28:13 24 4
gpt4 key购买 nike

我想抓取每次调用时返回随机响应的特定 url。下面的代码返回我想要的,但我想长时间运行它,以便我可以将数据用于 NLP 应用程序。此代码仅使用 scrapy crawl the 运行一次,但由于最后一个 if 语句,我预计它会运行更多次。

我要找的是 Unix 的启动命令吗?我试过了,但感觉有点慢。如果我必须使用 start 命令,在终端中打开许多选项卡并运行带有 start 前缀的相同命令是一个好习惯,还是它只会降低速度?

class TheSpider(scrapy.Spider):
name = 'the'
allowed_domains = ['https://websiteiwannacrawl.com']
start_urls = ['https://websiteiwannacrawl.com']

def parse(self, response):
info = {}
info['text'] = response.css('.pd-text').extract()
yield info

next_page = 'https://websiteiwannacrawl.com'
if next_page is not None:
yield scrapy.Request(next_page, callback=self.parse)

最佳答案

dont_filter

indicates that this request should not be filtered by the scheduler.This is used when you want to perform an identical request multipletimes, to ignore the duplicates filter. Use it with care, or you willget into crawling loops. Default to False

你应该在你的请求中添加这个

yield scrapy.Request(next_page, dont_filter=True)

这不是关于您的问题,而是关于callback=self.parse,请阅读 Parse Method

关于python - 在同一个 URL 上多次运行 Scrapy,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49836555/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com