python - 第一次运行后出现 Scrapy 'twisted.internet.error.ReactorNotRestartable' 错误-6ren

python - 第一次运行后出现 Scrapy 'twisted.internet.error.ReactorNotRestartable' 错误

转载作者：太空宇宙更新时间：2023-11-04 05:03:19

26

4

我正在使用 CrawlerProcess 从脚本运行 Scrapy (版本 1.4.0)。网址来自用户输入。第一次运行良好，但第二次出现 twisted.internet.error.ReactorNotRestartable 错误。所以，程序卡在那里。

爬虫进程部分:

process = CrawlerProcess({
    'USER_AGENT': 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)'
})

process.crawl(GeneralSpider)

print('~~~~~~~~~~~~ Processing is going to be started ~~~~~~~~~~')
process.start()
print('~~~~~~~~~~~~ Processing ended ~~~~~~~~~~')
process.stop()

这是第一次运行的输出:

~~~~~~~~~~~~ Processing is going to be started ~~~~~~~~~~
2017-07-17 05:58:46 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://www.some-url.com/content.php> (referer: None)
2017-07-17 05:58:46 [scrapy.core.scraper] ERROR: Spider must return Request, BaseItem, dict or None, got 'HtmlResponse' in <GET http://www.some-url.com/content.php>
2017-07-17 05:58:46 [scrapy.core.engine] INFO: Closing spider (finished)
2017-07-17 05:58:46 [scrapy.statscollectors] INFO: Dumping Scrapy stats:
{'downloader/request_bytes': 261,
 'downloader/request_count': 1,
 'downloader/request_method_count/GET': 1,
 'downloader/response_bytes': 14223,
 'downloader/response_count': 1,
 'downloader/response_status_count/200': 1,
 'finish_reason': 'finished',
 'finish_time': datetime.datetime(2017, 7, 17, 5, 58, 46, 760661),
 'log_count/DEBUG': 2,
 'log_count/ERROR': 1,
 'log_count/INFO': 7,
 'memusage/max': 49983488,
 'memusage/startup': 49983488,
 'response_received_count': 1,
 'scheduler/dequeued': 1,
 'scheduler/dequeued/memory': 1,
 'scheduler/enqueued': 1,
 'scheduler/enqueued/memory': 1,
 'start_time': datetime.datetime(2017, 7, 17, 5, 58, 45, 162155)}
2017-07-17 05:58:46 [scrapy.core.engine] INFO: Spider closed (finished)
~~~~~~~~~~~~ Processing ended ~~~~~~~~~~

当我尝试第二次运行时，出现错误:

~~~~~~~~~~~~ Processing is going to be started ~~~~~~~~~~
[2017-07-17 06:03:18,075] ERROR in app: Exception on /scripts/1/process [GET]
Traceback (most recent call last):
  File "/var/www/python/crawlerapp/appenv/lib/python3.5/site-packages/flask/app.py", line 1982, in wsgi_app
    response = self.full_dispatch_request()
  File "/var/www/python/crawlerapp/appenv/lib/python3.5/site-packages/flask/app.py", line 1614, in full_dispatch_request
    rv = self.handle_user_exception(e)
  File "/var/www/python/crawlerapp/appenv/lib/python3.5/site-packages/flask/app.py", line 1517, in handle_user_exception
    reraise(exc_type, exc_value, tb)
  File "/var/www/python/crawlerapp/appenv/lib/python3.5/site-packages/flask/_compat.py", line 33, in reraise
    raise value
  File "/var/www/python/crawlerapp/appenv/lib/python3.5/site-packages/flask/app.py", line 1612, in full_dispatch_request
    rv = self.dispatch_request()
  File "/var/www/python/crawlerapp/appenv/lib/python3.5/site-packages/flask/app.py", line 1598, in dispatch_request
    return self.view_functions[rule.endpoint](**req.view_args)
  File "api.py", line 13, in process_crawler
    processor.process()
  File "/var/www/python/crawlerapp/application/scripts/general_spider.py", line 124, in process
    process.start()
  File "/var/www/python/crawlerapp/appenv/lib/python3.5/site-packages/scrapy/crawler.py", line 285, in start
    reactor.run(installSignalHandlers=False)  # blocking call
  File "/var/www/python/crawlerapp/appenv/lib/python3.5/site-packages/twisted/internet/base.py", line 1242, in run
    self.startRunning(installSignalHandlers=installSignalHandlers)
  File "/var/www/python/crawlerapp/appenv/lib/python3.5/site-packages/twisted/internet/base.py", line 1222, in startRunning
    ReactorBase.startRunning(self)
  File "/var/www/python/crawlerapp/appenv/lib/python3.5/site-packages/twisted/internet/base.py", line 730, in startRunning
    raise error.ReactorNotRestartable()
twisted.internet.error.ReactorNotRestartable

如何在每个进程完成后重启 react 器或停止 react 器？

Stack Overflow 中有一些类似的问题，但解决方案适用于旧版本的 Scrapy。无法使用这些解决方案。

最佳答案

尝试在单独的进程中启动您的函数:

from multiprocessing.context import Process

def crawl():
    crawler = CrawlerProcess(settings)
    crawler.crawl(MySpider)
    crawler.start()

process = Process(target=crawl)
process.start()
process.join()

关于python - 第一次运行后出现 Scrapy 'twisted.internet.error.ReactorNotRestartable' 错误，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/45137458/

26

4

0

文章推荐： python - 从二进制数据获取文件类型/扩展名

文章推荐： animation - css3 动画 : div is not correct size

文章推荐： html - 使用 css 的全屏网页布局问题

文章推荐： python - 如何创建一个带有参数的装饰器来解析请求？

internet-explorer - 在同一台计算机上运行 Internet Explorer 6、Internet Explorer 7 和 Internet Explorer 8
像其他人一样，我需要在 Internet Explorer 6 和 Internet Explorer 7 上测试我的代码。现在，Internet Explorer 8 为开发人员提供了一些很棒的工具
internet-explorer - 如何使用注册表修改 Internet Explorer 临时 Internet 设置？
我已经浏览了几个小时的注册表，但似乎无法找到控制 Internet Explorer 临时 Internet 文件设置的注册表。我想从自动更改为其他内容。最佳答案 HKCU\Software\Mic
internet-explorer - Internet Explorer 8 和 Internet Explorer 6 并排
这个问题在这里已经有了答案: 10年前关闭。 Possible Duplicate: Running Internet Explorer 6, Internet Explorer 7, and Int
internet-explorer - 如何从 Internet Explorer 11 降级到 Internet Explorer 10？
作为一名开发者，我发现新的 Internet Explorer 版本完全是一场噩梦。我关闭了 Windows 功能，但无法安装 Internet Explorer 10 。它说它已经安装，但事实并非如
internet-explorer - Internet Explorer探查器
是否有任何分析器工具可以调试DOM中的哪个javascript /对象导致Internet Explorer挂起/崩溃。 CPU使用率将超过60％，我想知道其背后的原因，是哪个脚本/ Flash Ob
internet-explorer - Internet Explorer中TTF支持的状态是什么？
我正在尝试确定Internet Explorer上TTF字体格式的支持状态。 (我手头没有任何Windows计算机可以尝试。)The table at caniuse指出，从版本9开始的IE支持TTF
internet-explorer - Internet Explorer多个jdk版本
是否可以在 Internet Explorer 中切换多个版本的 JDK/JRE？想要使用 jdk 1.4、jdk 5 和 jdk 6。谢谢，迈克尔最佳答案据我所知，这并不容易做到，因为 IE
internet-explorer-8 - IE8 :Internet Explorer was not able to open this Internet site. 请求的站点不可用或找不到
这应该是IE8下载问题的老问题了。我使用 PHP 来设置响应头，如: header("Pragma: public"); header("Expires: 0"); header("Content-t
internet-explorer-6 - Internet Explorer 6 和 Internet Explorer 7 在同一台计算机上进行调试
这个问题在这里已经有了答案: 10年前关闭。 Possible Duplicate: Running Internet Explorer 6, Internet Explorer 7, and Int
internet-explorer - 为什么即使在模拟 Internet Explorer 8 文档模式时，Internet Explorer 11 也不支持条件注释？
我正在使用新的Internet Explorer 11开发人员工具将文档模式切换为“8”，但条件注释仍然被忽略，也就是说，它们没有被正确解析并且表现得像普通注释。因此，浏览器不会请求/加载条件注释内的
internet-explorer-7 - 是否可以出于调试目的从 Internet Explorer 7 降级到 Internet Explorer 6？
我在我的一个站点上遇到 Internet Explorer 6 问题，我真的希望我安装它而不是 Internet Explorer 7。有没有一种快速的方法来做到这一点？最佳答案下载Microso
javascript - 对于 Internet Explorer 我应该使用什么来使 Internet Explorer 禁用 Internet Explorer 的默认下拉样式
关闭。这个问题需要debugging details .它目前不接受答案。编辑问题以包含 desired behavior, a specific problem or error, and t
internet-explorer - 如何从 Powershell 访问 Internet Explorer 运行实例的经典 Internet Explorer COM 自动化对象？
如何访问 Internet Explorer 运行实例的经典 Internet Explorer COM 自动化对象？也就是说，如果我在多个窗口中打开 Internet Explorer，如何从 Po
internet-explorer - Internet Explorer 中带有空格的内容处理附件文件名
string filename = Server.UrlPathEncode(Path.GetFileName(_Filename))); Response.AddHeader("Content-Di
internet-explorer - Internet Explorer 永远等待本地主机
当我尝试使用 Apache 2.2 在 Windows7(64 位)上的 IE9 或 IE10 中打开 localhost 时，解析 URL 需要很长时间。其他浏览器没有问题并立即解析 URL，只有
internet-explorer - 如何从批处理文件打开和关闭 Internet Explorer？
我有一个批处理文件，必须启动 Internet Explorer 并打开 www.google.com .当整个页面加载完成时，它应该终止 IE 进程，即关闭该系统中的所有 IE 实例。我的批处理文件
internet-explorer - Internet Explorer 的测试自动化
关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。想改善这个问题吗？更新问题，使其成为 on-topic对于堆栈溢出。 6 个月前关闭。 Improve t
internet-explorer - Internet Explorer - 浏览时的奇怪形状
基本上，无论我使用 IE 访问哪个网站，我都可以看到那些黑色/白色形状，一旦我将鼠标移到它们上，它们就会消失。想知道是否有人知道可能导致这种情况的原因？另外:http://imageshack.c
internet-explorer - Internet Explorer 在哪里存储它的附加组件？
我检查了所有注册表，但找不到所有已安装扩展的列表。此时，IE 扩展/加载项的任何一般位置都会有所帮助。最佳答案取自 here : 浏览器帮助对象 - 旨在增强浏览器功能的浏览器插件。条目可以在
internet-explorer - Internet Explorer 平滑滚动检测
这是一个两部分的问题。我正在构建一个网页，我需要知道: 有没有办法检测 IE 是否启用了平滑滚动(如果是，如何)？有没有办法强制 IE 关闭我网页的平滑滚动功能？明确地说，我不是在问如何关闭整个计

首页

博学

6Ren·AI

商城

python - 第一次运行后出现 Scrapy 'twisted.internet.error.ReactorNotRestartable' 错误