python - Scrapy:爬取共享相同项目、管道和设置但具有单独输出的多个蜘蛛-6ren

python - Scrapy:爬取共享相同项目、管道和设置但具有单独输出的多个蜘蛛

转载作者：太空宇宙更新时间：2023-11-04 02:45:15

24

4

我正在尝试使用基于官方文档中提供的代码的 Python 脚本运行多个蜘蛛。我的 scrapy 项目包含多个蜘蛛(Spider1、Spider2 等)，它们抓取不同的网站并将每个网站的内容保存在不同的 JSON 文件中(output1. json、output2.json、 等)。

在不同网站上收集的项目共享相同的结构，因此蜘蛛使用相同的项目、管道和设置类。输出由管道中的自定义 JSON 类生成。

当我单独运行爬虫时，它们会按预期工作，但是当我使用下面的脚本通过 scrapy API 运行爬虫时，项目会混合在管道中。 Output1.json 应该只包含 Spider1 抓取的项目，但它也包含 Spider2 的项目。我如何使用相同的项目、管道和设置使用 scrapy API 抓取多个蜘蛛，但生成单独的输出？

这是我用来运行多个爬虫的代码:

import scrapy
from scrapy.crawler import CrawlerProcess
from web_crawler.spiders.spider1 import Spider1
from web_crawler.spiders.spider2 import Spider2

settings = get_project_settings()
process = CrawlerProcess(settings)
process.crawl(Spider1)
process.crawl(Spider2)
process.start()

示例 output1.json:

{
"Name": "Thomas"
"source": "Spider1"
}
{
"Name": "Paul"
"source": "Spider2"
}
{
"Name": "Nina"
"source": "Spider1"

}

示例 output2.json:

{
"Name": "Sergio"
"source": "Spider1"
}
{
"Name": "David"
"source": "Spider1"
}
{
"Name": "James"
"source": "Spider2"
}

正常情况下，spider1("source": "Spider1")爬取的所有名字都应该在output1.json中，spider2("source": "Spider2")爬取的所有名字都应该在output2.json中

感谢您的帮助!

最佳答案

第一个问题是蜘蛛在同一个进程中运行。通过链接 deferreds 顺序运行蜘蛛解决了这个问题:

#scrapy
from twisted.internet import reactor, defer
from scrapy.crawler import CrawlerRunner
from scrapy.utils.project import get_project_settings
from scrapy.utils.log import configure_logging

#spiders
from web_crawler.spiders.spider1 import Spider1
from web_crawler.spiders.spider2 import Spider2

configure_logging()
settings = get_project_settings()
runner = CrawlerRunner(settings)

@defer.inlineCallbacks
def crawl():
    yield runner.crawl(Spider1)
    yield runner.crawl(Spider2)
    reactor.stop()

crawl()
reactor.run()

我的管道中还有第二个错误:我没有在 close_spider 时清除我的结果列表。因此，spider2 将项目添加到已经包含 spider1 的项目的列表中。

class ExportJSON(object):

    results = []

    def process_item(self, item, spider):

        self.results.append(dict(item))
        return item

    def close_spider(self, spider):

        file = open(file_name, 'w')
        line = json.dumps(self.results)
        file.write(line)
        file.close()

        self.results.clear()

谢谢!

关于python - Scrapy:爬取共享相同项目、管道和设置但具有单独输出的多个蜘蛛，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/45309220/

24

4

0

文章推荐： python - 如何使用 Beautiful Soup 提取标签内容？

文章推荐： java - 按钮的 css 样式不起作用

文章推荐： javascript - jQuery : Text on moving div (infinite wall)

文章推荐： node.js - 从 Node 连接到 Azure CosmosDB Mongodb 数据库

c# - 是否可以使用 .Net 框架以编程方式记录对 Windows 共享(SMB 共享)的访问？
只是想知道是否有可能找出谁从 Windows 共享中读取了文件(最好使用 .NET，但 win32 native 可以)？我想做的是创建类似 awstats 的东西对于 Windows 共享，这样我
Android - 共享
是否可以列出 Intent.ACTION_SEND ？我的意思是我需要知道是否有人通过 action_send 在 Facebook 上分享或在 Twitter 上发推文。最佳答案也许你想要一个更
java - 谷歌日历(共享)
我正在使用 Google Apps 应用程序。实际上，我想在不使用密码的情况下访问另一个 ID。我使用了 OAuth，它运行良好。但我无法分享特定人的日历。我尝试了以下代码。 GoogleOAuthP
iphone - 共享 MACintosh？
我怎样才能只创建模拟器...可能吗？我知道，设备需要分发证书。最佳答案您只需将应用程序目录从 iPhone 模拟器复制到另一个实例/操作系统版本，它就应该可以工作。因此，如果您想分发 3.1.3
maven - Docker多阶段构建和上一阶段的安装/共享
我想使用多阶段构建来避免每次构建应用程序时都下载我的 Java 项目所需的所有 Maven 依赖项。我正在考虑在第一阶段解决 Maven 依赖项，然后在第二阶段构建应用程序，这将需要访问在前一阶段下
ios - 如何保护本地资源免遭未经授权的传输(共享)
我正在寻找保护用户下载内容的初步想法。用户下载充满有趣资源的 zip 文件，这些资源被提取到本地文件系统中以供应用程序使用。我的目标是防止用户通过互联网将下载的资源共享给其他用户(假设他们获得了对文件
桌面和移动网站应用程序之间的 session 共享？
我想知道在具有移动和桌面版本的网站上共享身份验证、 session 管理等的最佳方法是什么。我们正在运行 Tomcat，并且更愿意将移动站点和桌面站点的应用程序保持在不同的节点上。我看过类似的帖子，
c++ - (共享)指向单例的指针
我发现了这个单例的实现。我怎样才能创建指向它的指针或共享指针？` 为什么这不起作用？自动测试 = Singleton::Instance(); class Singleton { public: st
virtualenv - 共享 Virtualenv 环境定义
我有一个 heroku 项目，我想与其他人分享。作为the instructions describe ，我使用 virtualenv 来管理环境和依赖项。有没有办法在新机器上从 requiremen
maven - 共享 Maven 本地仓库
Maven 将所有 jar 存储在本地存储库 ~/.m2/repository/ 下。用户多时占用空间大。那么，是否可以由多个用户共享这个本地存储库，或许在不同的目录结构下？最佳答案简单的回答
javascript - 共享 worker 在重新加载页面时终止
为什么共享 worker 在重新加载页面时死了？应该是复活了我该如何解决这个问题？重装前重新加载后(在example.com上按F5) parent worker var port = new S
多个应用程序中的 Angular 共享 Assets
我正在开发多个小型应用程序，这些应用程序将共享通用和共享模块和 Assets 。关于如何创建项目结构的部分在这里回答:https://stackoverflow.com/a/61254557/135
jenkins - 如何从另一台计算机访问/共享 Jenkins？
我在 RHEL 上安装了 jenkins (localhost:8080)，我能够成功地构建代码现在，我想设置主/从代理。我的笔记本电脑将充当“Master Jenkins”，而我同事的笔记本电脑
Android 共享 Intent EXTRA_STREAM
我有这种方法可以根据我使用的 EXTRA_STREAM 共享文本文件或图片。我有这两个我可以选择 i.putExtra(Intent.EXTRA_STREAM, uri); i.putExtra(In
r - 共享 Bookdown 书而不公开
我正在使用 R 中的一个数据分析项目，我正在使用 R 中的敏感私有(private)数据进行一些逻辑和多级建模。我爱上了。预订包，我已经创建了一本关于我们的工作流程和分析管道的相当广泛的书。问题是
iPhone 工具栏由多个 View 共享
我正在构建的应用程序需要在 UITabBarController 框架内为多个 View (及其 subview )显示共享的自定义 UIToolbar。自定义工具栏的内容在所有 View 中都是相同
javascript - 共享 eslint 配置找不到节点模块
我有多个应用程序，我想共享相同的 eslint 配置: - project_root/ - app1/ - node_modules/ - eslint.rc
electron - 共享 Electron 主过程
我有多个 Electron 应用程序。一个是主应用程序，其他几个功能应用程序。主应用程序上的按钮很少，这将导致功能应用程序打开。这里的问题是每个应用程序都有一个主进程，该进程导致要利用更多的CPU。是
javascript - 共享 SockJS 连接
我正在开发一个 Node.js 后端，它通过 websocket 与一些桌面客户端进行通信，而服务器端的通信是从 Web 前端发起的。一切正常，因为我将 SockJS Connection 实例存储在
ssh - 共享 SSH key
我对托管多个网站的服务器上的多个用户帐户使用私有(private) SSH key 和无密码条目。我为每个用户帐户使用相同的私钥。 (因为我很懒？或者那是“正确”的方式)。我现在想授权该国不同地区

首页

博学

6Ren·AI

商城

python - Scrapy:爬取共享相同项目、管道和设置但具有单独输出的多个蜘蛛