gpt4 book ai didi

linux - Crontab 作业无法正确运行多个 Scrapy 蜘蛛

转载 作者:太空宇宙 更新时间:2023-11-04 05:10:07 24 4
gpt4 key购买 nike

我有一个 crontab 作业,运行一个 myautorun.sh 文件,其中包含 3 个蜘蛛:

crontab -e

14 * * * * * ~bin/myautorun.sh

myautorun.sh 看起来像这样:

scrapy crawl spider1 &
scrapy crawl spider2 &
scrapy crawl spider3

每个蜘蛛抓取 20 页。

当 cronjob 运行时,它最终会得到大约 30 个可变的抓取页面,而且从来不会是 60 个。每个蜘蛛都会读取几页,但不会读取全部 20 页。然而,如果我评论两个蜘蛛并一次单独运行它们,它会给我 60。

所以我很困惑为什么它不能正确运行并行蜘蛛,我使用 Crawlera 运行蜘蛛,它们位于 1GB RAM 虚拟服务器上。

有什么设置或我遗漏的东西吗?谢谢,

最佳答案

& 表示您正在并行运行它们,因此这可能是问题,您的蜘蛛占用了太多 RAM,因此被杀死

无论如何,您还应该将蜘蛛的输出重定向到日志文件,以便将来出现任何错误,您将能够看到发生了什么

scrapy crawl spider1 > logs_1.txt &
scrapy crawl spider2 > logs_2.txt &
scrapy crawl spider3 > logs_3.txt

关于linux - Crontab 作业无法正确运行多个 Scrapy 蜘蛛,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56503821/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com