scrapy自定义pipeline类实现将采集数据保存到mongodb的方法-6ren

scrapy自定义pipeline类实现将采集数据保存到mongodb的方法

转载作者：qq735679552 更新时间：2022-09-29 22:32:09

CFSDN坚持开源创造价值，我们致力于搭建一个资源共享平台，让每一个IT人在这里找到属于你的精彩世界.

这篇CFSDN的博客文章scrapy自定义pipeline类实现将采集数据保存到mongodb的方法由作者收集整理，如果你对这篇文章有兴趣，记得点赞哟.

本文实例讲述了scrapy自定义pipeline类实现将采集数据保存到mongodb的方法。分享给大家供大家参考。具体如下:

 
    ? 
   
         # Standard Python library imports 
        
         # 3rd party modules 
        
         import 
         pymongo 
        
         from 
         scrapy  
         import 
         log 
        
         from 
         scrapy.conf  
         import 
         settings 
        
         from 
         scrapy.exceptions  
         import 
         DropItem 
        
         class 
         MongoDBPipeline( 
         object 
         ): 
        
         def 
         __init__( 
         self 
         ): 
        
         self 
         .server  
         = 
         settings[ 
         'MONGODB_SERVER' 
         ] 
        
         self 
         .port  
         = 
         settings[ 
         'MONGODB_PORT' 
         ] 
        
         self 
         .db  
         = 
         settings[ 
         'MONGODB_DB' 
         ] 
        
         self 
         .col  
         = 
         settings[ 
         'MONGODB_COLLECTION' 
         ] 
        
         connection  
         = 
         pymongo.Connection( 
         self 
         .server,  
         self 
         .port) 
        
         db  
         = 
         connection[ 
         self 
         .db] 
        
         self 
         .collection  
         = 
         db[ 
         self 
         .col] 
        
         def 
         process_item( 
         self 
         , item, spider): 
        
         err_msg  
         = 
         '' 
        
         for 
         field, data  
         in 
         item.items(): 
        
         if 
         not 
         data: 
        
         err_msg  
         + 
         = 
         'Missing %s of poem from %s\n' 
         % 
         (field, item[ 
         'url' 
         ]) 
        
         if 
         err_msg: 
        
         raise 
         DropItem(err_msg) 
        
         self 
         .collection.insert( 
         dict 
         (item)) 
        
         log.msg( 
         'Item written to MongoDB database %s/%s' 
         % 
         ( 
         self 
         .db,  
         self 
         .col), 
        
         level 
         = 
         log.DEBUG, spider 
         = 
         spider) 
        
         return 
         item

希望本文所述对大家的python程序设计有所帮助.

最后此篇关于scrapy自定义pipeline类实现将采集数据保存到mongodb的方法的文章就讲到这里了,如果你想了解更多关于scrapy自定义pipeline类实现将采集数据保存到mongodb的方法的内容请搜索CFSDN的文章或继续浏览相关文章，希望大家以后支持我的博客！。

文章推荐： PHP生成和获取XML格式数据的方法

文章推荐：关于SQL语句中的AND和OR执行顺序遇到的问题

文章推荐： PHP使用fopen与file_get_contents读取文件实例分享

文章推荐：从零开始学习SQL查询语句执行顺序

jfrog-pipelines - JFrog Pipelines 中是否有一种方法可以自动拒绝先前运行的仍在等待批准的步骤？
例如，如果运行 1 正在等待批准并触发运行 2，则应拒绝运行 1。最佳答案 “待批准”状态具体来自 Approval Gates功能。虽然您不能在触发新运行时明确拒绝“待批准”步骤，但您可以通过在
azure-pipelines - Azure Pipelines - 管道工件和构建工件之间有什么区别？
在 Azure DevOps Pipelines 中，似乎有两种我无法区分的概念和处理“工件”的方法。管道工件 https://learn.microsoft.com/en-us/azure/dev
azure-pipelines - Azure Pipelines - 查看上一次运行的参数
不确定是否有办法做到这一点，但我想查看之前运行的 yaml 管道中的参数，以便查看管道运行时输入或选择的内容。那可能吗？我发现的唯一解决方法是根据每个参数添加标签。最佳答案您可以从 Build 查
pipeline - 如何防止 Bitbucket Pipelines 中的步骤失败？
我正在运行我所有的测试用例，其中一些用例有时会失败，管道检测到它并使步骤和构建失败。这会阻止要执行的下一步(压缩报告文件夹)。我想将该 zip 文件作为电子邮件附件发送。这是我的 bitbucket
pipeline - "rerun in upstream in pipeline"是什么意思？
我正在数据工厂中定义管道，我纠正了一些错误。第一个事件是调用 usql 脚本进行一些聚合，我更改了脚本很多时间，但错误仍然是: [{"errorId":"E_CSC_USER_SYNTAXERROR"
azure-pipelines-release-pipeline - 使用kubeconfig内联的Helm命令
我正在尝试使用运行命令VSTS扩展名对VSTS版本定义执行helm命令，但问题是它无法在我配置的自定义生成代理上找到kubeconfig文件。我认为这是因为定义的构建步骤在单独的过程中运行。当我运行
python - sklearn.pipeline.Pipeline 到底是什么？
我无法弄清楚 sklearn.pipeline.Pipeline 是如何工作的。 doc 中有一些解释.例如它们是什么意思: Pipeline of transforms with a final e
Azure管道: How to block pipeline A if pipeline B is running
我在 azure 管道中有两个管道(也称为“构建定义”)，一个正在执行系统测试，一个正在执行性能测试。两者都使用相同的测试环境。我必须确保系统测试管道运行时不会触发性能管道，反之亦然。到目前为止我已
bitbucket-pipelines - Bitbucket Pipelines SSH 凭据不起作用
我遵循了这个指令 https://confluence.atlassian.com/bitbucket/use-ssh-keys-in-bitbucket-pipelines-847452940.ht
Azure Pipeline 使用 YAML 触发 Pipeline
当使用 YAML 完成另一个管道时尝试触发 Azure 管道。有documentation表明您可以添加管道资源: resources: # types: pipelines | builds |
azure-pipelines - 如何在 Azure Pipelines 上正确进行文件转换
我正在尝试根据我发布到的每个环境对我的 Web.config 进行文件转换。大多数情况下，一切看起来都很好，直到我在发布管道上部署到我的 UAT 阶段。在我的构建管道中，这是我正在使用的 YAML
jenkins-pipeline - 在 Jenkins Pipelines 中设置阶段状态
脚本化管道中是否有任何方法可以将某个阶段标记为不稳定，但仅将该阶段显示为不稳定，而不在输出中将每个阶段标记为不稳定？我可以做这样的事情: node() { stage("Stage1") {
azure-pipelines - 在 Azure Pipelines 中复制和重命名配置文件
我有针对特定环境(dev、qa、uat)的特定配置文件和另一个根 web.config。部署的代码读取 web.config。所以我一直在尝试复制内容或重命名 Azure Pipelines 中的文件
jenkins - 如何将 Jenkins Pipeline 转换为多分支 Pipeline？
我的 Jenkins 中有很多 Pipeline 项目。我想将它们转换为多分支管道。是否可以不删除管道并创建新的多分支管道？怎么办？最佳答案假设您的管道位于 Jenkinsfile 中，则无需进行
azure-pipelines - 在可能从模板扩展的 azure pipelines yml 中使用变量？
我们正在使用扩展功能以安全的方式在我们的管道中重用模板。为了更轻松地定义模板的参数，我想使用变量，但我觉得这是不可能的。但由于我在官方文档中找不到答案，所以我在这一轮提问。我的 yml 文件如下所
jenkins-pipeline - 如何在 Jenkins Pipeline 工作中获取 UID
如何访问UID Jenkins 管道工作中的变量？我收到了 null什么时候: pipeline { agent any environment { def user
azure-pipelines - 在 Azure Pipelines 中，如何在其他任务运行时执行后台任务？
我正在摆弄管道以尝试减少整体运行时间。我想做的一件事是执行 docker pull ...在开始时，以便以后，当我真正需要它时，它已经为我准备好了。我想将它作为后台工作解雇，并让它在该任务结束后继续存
bitbucket-pipelines - 如何在 Bitbucket Pipeline 上编写多行 if block ？
From here我了解到 Bitbucket Pipeline 支持 ifs 语句。如何在 if 语句中执行多行块？这不计算: script: - if [ $BITBUCK
jenkins-pipeline - 无法将图像从 Jenkins Pipeline 推送到 GCR
我在运行 Jenkins 服务器(在 docker 容器内)的谷歌云中运行虚拟机。我正在尝试为我的应用程序构建一个 Docker 镜像，并使用 Jenkins 管道将其推送到 Google Conta
azure-pipelines - azure-pipelines.yml 中的错误意外值 'steps'
在构建和部署 docker image.Getting Unexpected value 'Steps' 在第 27 行之前，我试图将视频文件从 GPM 复制到 app/dist/asset/imag

qq735679552

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

scrapy自定义pipeline类实现将采集数据保存到mongodb的方法