python - 一旦scrapy爬虫抓取了所有提供的url，如何手动停止它？-6ren

python - 一旦scrapy爬虫抓取了所有提供的url，如何手动停止它？

转载作者：行者123 更新时间：2023-12-01 02:15:02

我实现了一个爬虫，它从文本文件获取 url 并抓取所有 url，然后停止。

我的实现:

class CoreSpider(scrapy.Spider):
    name = "final"
    custom_settings = {
        'ROBOTSTXT_OBEY': 'False',
        'HTTPCACHE_ENABLED': 'True',
        'LOG_ENABLED': 'False',
        'DOWNLOADER_MIDDLEWARES': {
            'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': 110,
            'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': None,
            'random_useragent.RandomUserAgentMiddleware': 320
        },
    }

    def __init__(self):
        self.all_ngrams = get_ngrams()
        # logging.DEBUG(self.all_ngrams)
        self.search_term = ""
        self.start_urls = self.read_url()
        self.rules = (
            Rule(LinkExtractor(unique=True), callback='parse', follow=True, process_request='process_request'),
        )
 .....
 .....

我从脚本运行这个蜘蛛，如下所示:

process = CrawlerProcess(get_project_settings())
process.crawl(CoreSpider)
process.start()

它给出了错误“twisted.internet.error.ReactorNotRestartable 一旦完成抓取所有网址。

我尝试使用Runner就像下面的实现一样，它给出了与之前相同的错误。

runner = CrawlerRunner(get_project_settings())
d = runner.crawl(CoreSpider)
d.addBoth(lambda _: reactor.stop())
reactor.run() # the script will block here until the crawling is finished

然后我尝试像这样运行蜘蛛:

runner = CrawlerRunner(get_project_settings())
@defer.inlineCallbacks
def crawl():
    yield runner.crawl(CoreSpider)
    reactor.stop()

crawl()
reactor.run()

但它仍然给出相同的错误。

一旦所有网址都被抓取，如何手动停止蜘蛛？

更新: Python 2.7 堆栈跟踪

Traceback (most recent call last):
  File "seed_list_generator.py", line 768, in <module>
    process = CrawlerProcess(get_project_settings())
  File "/root/anaconda2/lib/python2.7/site-packages/scrapy/crawler.py", line 243, in __init__
    super(CrawlerProcess, self).__init__(settings)
  File "/root/anaconda2/lib/python2.7/site-packages/scrapy/crawler.py", line 134, in __init__
    self.spider_loader = _get_spider_loader(settings)
  File "/root/anaconda2/lib/python2.7/site-packages/scrapy/crawler.py", line 330, in _get_spider_loader
    return loader_cls.from_settings(settings.frozencopy())
  File "/root/anaconda2/lib/python2.7/site-packages/scrapy/spiderloader.py", line 61, in from_settings
    return cls(settings)
  File "/root/anaconda2/lib/python2.7/site-packages/scrapy/spiderloader.py", line 25, in __init__
    self._load_all_spiders()
  File "/root/anaconda2/lib/python2.7/site-packages/scrapy/spiderloader.py", line 47, in _load_all_spiders
    for module in walk_modules(name):
  File "/root/anaconda2/lib/python2.7/site-packages/scrapy/utils/misc.py", line 71, in walk_modules
    submod = import_module(fullpath)
  File "/root/anaconda2/lib/python2.7/importlib/__init__.py", line 37, in import_module
    __import__(name)
  File "/root/Public/company_profiler/profiler/spiders/run_spider.py", line 12, in <module>
    process.start()
  File "/root/anaconda2/lib/python2.7/site-packages/scrapy/crawler.py", line 285, in start
    reactor.run(installSignalHandlers=False)  # blocking call
  File "/root/anaconda2/lib/python2.7/site-packages/twisted/internet/base.py", line 1242, in run
    self.startRunning(installSignalHandlers=installSignalHandlers)
  File "/root/anaconda2/lib/python2.7/site-packages/twisted/internet/base.py", line 1222, in startRunning
    ReactorBase.startRunning(self)
  File "/root/anaconda2/lib/python2.7/site-packages/twisted/internet/base.py", line 730, in startRunning
    raise error.ReactorNotRestartable()
twisted.internet.error.ReactorNotRestartable

Python 3.6回溯:

 File "seed_list_generator.py", line 769, in <module>
    process = CrawlerProcess(get_project_settings())
  File "/root/anaconda3/lib/python3.6/site-packages/scrapy/crawler.py", line 249, in __init__
    super(CrawlerProcess, self).__init__(settings)
  File "/root/anaconda3/lib/python3.6/site-packages/scrapy/crawler.py", line 137, in __init__
    self.spider_loader = _get_spider_loader(settings)
  File "/root/anaconda3/lib/python3.6/site-packages/scrapy/crawler.py", line 336, in _get_spider_loader
    return loader_cls.from_settings(settings.frozencopy())
  File "/root/anaconda3/lib/python3.6/site-packages/scrapy/spiderloader.py", line 61, in from_settings
    return cls(settings)
  File "/root/anaconda3/lib/python3.6/site-packages/scrapy/spiderloader.py", line 25, in __init__
    self._load_all_spiders()
  File "/root/anaconda3/lib/python3.6/site-packages/scrapy/spiderloader.py", line 47, in _load_all_spiders
    for module in walk_modules(name):
  File "/root/anaconda3/lib/python3.6/site-packages/scrapy/utils/misc.py", line 71, in walk_modules
    submod = import_module(fullpath)
  File "/root/anaconda3/lib/python3.6/importlib/__init__.py", line 126, in import_module
    return _bootstrap._gcd_import(name[level:], package, level)
  File "<frozen importlib._bootstrap>", line 978, in _gcd_import
  File "<frozen importlib._bootstrap>", line 961, in _find_and_load
  File "<frozen importlib._bootstrap>", line 950, in _find_and_load_unlocked
  File "<frozen importlib._bootstrap>", line 655, in _load_unlocked
  File "<frozen importlib._bootstrap_external>", line 678, in exec_module
  File "<frozen importlib._bootstrap>", line 205, in _call_with_frames_removed
  File "/root/Public/company_profiler/profiler/spiders/run_spider.py", line 12, in <module>
    process.start()
  File "/root/anaconda3/lib/python3.6/site-packages/scrapy/crawler.py", line 291, in start
    reactor.run(installSignalHandlers=False)  # blocking call
  File "/root/anaconda3/lib/python3.6/site-packages/twisted/internet/base.py", line 1242, in run
    self.startRunning(installSignalHandlers=installSignalHandlers)
  File "/root/anaconda3/lib/python3.6/site-packages/twisted/internet/base.py", line 1222, in startRunning
    ReactorBase.startRunning(self)
  File "/root/anaconda3/lib/python3.6/site-packages/twisted/internet/base.py", line 730, in startRunning
    raise error.ReactorNotRestartable()
twisted.internet.error.ReactorNotRestartable

提前致谢。

最佳答案

当你像这样改变你的代码时会发生什么？

class CoreSpider(scrapy.Spider):
    name = "final"
    custom_settings = {
        'ROBOTSTXT_OBEY': 'False',
        'HTTPCACHE_ENABLED': 'True',
        'LOG_ENABLED': 'False',
        'DOWNLOADER_MIDDLEWARES': {
            'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': 110,
            'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': None,
            'random_useragent.RandomUserAgentMiddleware': 320
        },
    }

    def __init__(self,*args,**kwargs):
        # python 3
        super().__init__(*args,**kwargs)
        # python 2
        # super(CoreSpider, self).__init__(*args, **kwargs)

        self.all_ngrams = get_ngrams()
        # logging.DEBUG(self.all_ngrams)
        self.search_term = ""
        self.start_urls = self.read_url()
        self.rules = (
            Rule(LinkExtractor(unique=True), callback='parse', follow=True, process_request='process_request'),
        )
 .....
 .....

关于python - 一旦scrapy爬虫抓取了所有提供的url，如何手动停止它？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/48425792/

文章推荐： python-3.x - smtplib, 'tuple' 对象没有属性 'encode'

文章推荐： python - 使用 Python Egg/Wheel 打包共享对象(库)

c# - 爬虫/机器人如何工作？区分机器人/爬虫 http 请求
我在一个网站上工作。我需要了解我的网站是否获得了来自 Google 或任何其他搜索引擎的抓取工具/机器人的访问在我的应用程序中，我正在拦截 http 请求。并且需要查明爬虫/机器人是否正在发出 h
北京理工大学python 爬虫
我与北京理工大学python爬虫的邂逅在人生的旅途中，我们时常有机会邂逅一些惊艳的事物，它们仿佛一束亮光照亮了前行的道路。而我，一个平凡的人类，也不例外。回想起那个让我心动的时刻，我想起了与北京理工
爬虫是用python什么文件写的
从“爬虫”谈起在这个信息爆炸的时代，互联网上的数据宛如茫茫星海，琳琅满目。但是，我们能否想象到这些数据背后隐藏着多少珍贵的信息呢？有人说，要想获得这些数据，我们需要借助一种神奇的力量——爬虫。什么
爬虫 python能爬到视频播放地址吗
探索未知的领域曾几何时，我陷入了对互联网世界的好奇之中。作为一个普通的人类，我对于计算机技术的了解可谓是一窍不通。然而，好奇心驱使着我踏上了学习的征途。奇妙的爬虫在探索计算机领域的过程中，我翻阅
零基础python视频教程课程爬虫
教室的奇妙之旅在一个晴朗的早晨，我来到了一所神奇且富有魅力的教室。这里充满了未知的冒险和无限的学习可能。嘿，你没听错，就是那个零基础Python视频教程课程的教室！让我带你一起踏上这趟令人期待的爬虫
零基础学python3 爬虫
零基础学python3 爬虫嗨，各位小伙伴们！今天要和大家分享一段有关学习Python3爬虫的故事。无论是技术小白还是编程高手，都可以从中获益良多。 1. 邂逅神奇的爬虫世界就像是迷失在未知之地的
Python如何求一个目录迭代的最小移动次数——爬虫
我正在开发一个 Python(3) 程序，在该程序中，我必须使用输入作为表示各种操作的多次迭代列表来返回目录迭代的移动次数，例如: ../ 表示移动到当前文件夹的父文件夹。 ./ 保留在同一文件夹中
python+爬虫+第三方库
我和Python：一段关于爬虫和第三方库的故事曾经有一个人，他和一门编程语言结下了不解之缘。这门语言就是Python，一个灵活而强大的工具，让他的世界变得多姿多彩。遇见爬虫：探索未知的世界某天，
大众点评top10 爬虫 python
偷心技艺：大众点评TOP10 爬虫 Python 故事发生在一个被互联网包围的城市，充满了各种各样的餐馆、咖啡厅和美食街巷。每天都有无数的食客们纠结于选择哪家餐厅才能获得满足和享受。就在这个时候，我偶
为什么python 爬虫部分网页源码
登山寻宝：为什么Python爬虫部分网页源码人生就像登山寻宝的旅程，充满了未知和挑战。而对于爱好编程的我来说，写一个Python爬虫，探索网络世界也是一种刺激的冒险。今天，我想和大家分享一下为什么要
python 爬虫获取携程网站机票数据
插班生的悲喜交加记得那个夏天，我踏入了编程的殿堂，成为了一名程序员。对于一个毫无基础的人来说，这是一次勇敢而激动的尝试。然而，更令我兴奋的是，在我的码农之旅中，我发现了一种神奇的力量——Python
python 爬虫保存分页数据库
一、意外的宝藏当我踏进了编程的大门，发现了那个绚丽多彩的世界时，我仿佛捡到了一个意外的宝藏。在编码的世界里，我像是一个魔术师，用着神奇的符号与逻辑来创造奇迹。然而，随着时间的推移，我渐渐找到了一种
python 爬虫 js网页数据库
“呜呜呜~” 夏日的阳光穿过微风，洒在我身上，仿佛一片温暖而宁静的海洋。我望着眼前充满希望与挑战的屏幕，满脸的期待和困惑。作为一个刚刚入门的编程初学者，我竭尽全力探索着那座神秘的编程世界，好像是航行在
python 爬虫 f怎么获取第几个td
我的编程之旅嗨，大家好！我是一个普通的人类，对于编程世界充满着无限的好奇和热情。今天，我想向大家讲述一段关于我的编程经历，特别是在爬虫领域的探索之旅。 1. 踏上未知的征途就像一只踏上大海的小船，
python 爬虫爬取京东销量数据库
揭秘神奇的爬虫世界：探寻京东销量数据库从古至今，人类一直渴望了解世界的各个角落。而对于互联网这个充满未知和神秘的领域来说，我们更是怀着好奇和充满冒险精神的心态去探索。今天，我将带领大家踏上一段激动人
python 爬虫爬取关键词排名
啊！你好呀！很高兴能遇到你，让我向你讲一个关于python爬虫爬取关键词排名的故事。章节一：奇妙的网络世界网络就像一片浩瀚的海洋，里面有无数宝藏等待着我们发掘。而当我们学会了使用python这把钥
python 爬虫同一会话查询多次
一次意外的奇遇在我们生活的世界中，技术如今已经无处不在，无论是大型软件开发还是个人应用，都离不开它的支持。而其中最为神奇的领域之一，就是爬虫技术。想象一下，你有可能仅凭几行代码，就能够在电脑屏幕上将
爬虫网易云音乐评论 python3
奇遇之旅在这个大千世界中，我有幸踏上了一次令人兴奋的冒险之旅。故事的开始，是一个寂静而神秘的夜晚。迷宫的入口深夜的城市，街道上弥漫着微弱的灯光，仿佛点缀着无数的星星。我沿着曲径通幽的小巷走着，脚
python 爬虫自动上传下载
python 爬虫自动上传下载从前有一个热爱编程的小伙子，他喜欢利用自己的技术解决各种实际问题。有一天，他面对一个任务：需要在网络上批量上传和下载文件。这可不是一件轻松的工作，但对于这位小伙子来说
python 爬虫第三方库
一场奇妙的探险之旅：Python编程语言中的爬虫第三方库故事从一个寻宝者开始。他身穿一件斑驳的皮衣，手持一柄锈迹斑斑的剑，如同一个当代版的荒野游侠。这位勇士的目标是探索Python编程语言中的神秘领

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

python - 一旦scrapy爬虫抓取了所有提供的url，如何手动停止它？