python - 如何将 Scrapy Web 爬虫与 Luigi 数据管道集成？-6ren

python - 如何将 Scrapy Web 爬虫与 Luigi 数据管道集成？

转载作者：可可西里更新时间：2023-11-01 16:32:14

28

4

(长期用户 && 第一个问题 && 紧张地问)是真的

我目前正在构建一个 Python 后端，它将部署到具有以下架构的单个 AWS EC2 实例:

|---- 数据源 -----| 临时存储 | - 数据处理 --- | ----- DB ---- |

网络爬虫数据----*保存到S3* =\
API 数据----------------*保存到 S3* ==> Lugi 数据管道 --> MongoDB

如上所示，我们有不同的获取数据的方式(即 API 请求、Scrapy Web 爬虫等)，但棘手/困难的部分是想出一种简单且容错的方式来连接接收到的数据使用 Luigi 数据管道。

有没有办法将网络爬虫的输出集成到 Luigi 数据管道中？如果不是，弥合 HTTP 数据 getter 和 Luigi 任务之间差距的最佳方法是什么？

如有任何建议、文档或文章，我们将不胜感激!此外，如果您需要更多详细信息，我会尽快将它们提供给您。

谢谢!

最佳答案

我从来没有用过路易吉。但我确实使用scrapy。我猜真正的问题是您如何以合理的方式通知 luigi 有新数据要处理？

您可以从此处了解类似的问题:When a new file arrives in S3, trigger luigi task也许你们在同一个地方工作:)。

我强烈建议在 scrapyd 中托管您的蜘蛛并使用 scrapyd-client 来驱动它。如果您尝试在使用扭曲库的其他工具中运行 scrapy(不确定 luigi 是否这样做)，则会弹出各种毛茸茸的东西。我会使用 scrapyd-client 驱动蜘蛛，让你的蜘蛛发布到一个触发 url，告诉 luigi 以某种方式开始任务。

同样，因为我没有使用过 luigi，所以我不知道那里的细节......但是你不想忙于检查/轮询以了解工作是否完成。

我有一个 django 网络应用程序，我启动了蜘蛛程序，存储了来自 scrapyd-client 的 jobid，完成后在肩膀上点击了一个 json，然后我使用 celery 和 solr 来摄取数据。

编辑以包含来自以下评论的管道代码:

        for fentry in item['files']:

            # open and read the file
            pdf = open(rootdir+os.path.sep+fentry['path'],'rb').read()

            # just in case we need cookies
            cj     = CookieJar()
            opener = urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cj))

            # set the content type
            headers = {
            'Content-Type': 'application/json'
            }

            #fill out the object
            json_body = json.dumps({
            'uid'   : 'indeed-'+item['indeed_uid'],
            'url'   : item['candidate_url'],
            'first_name' : fname,
            'last_name'  : lname,
            'pdf'     : base64.b64encode(pdf).decode(),
            'jobid': spider.jobid
            }).encode()
            #, ensure_ascii=False)

            # send the POST and read the result
            request = urllib.request.Request('http://localhost:8080/api/someapi/', json_body, headers)
            request.get_method = lambda: 'POST'
            response = opener.open(request)

关于python - 如何将 Scrapy Web 爬虫与 Luigi 数据管道集成？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/44531459/

28

4

0

文章推荐： java - 特定表的 hbase-default.xml 中单元格的最大大小

文章推荐： hadoop - 在 Hive 表中分区

文章推荐： hadoop - 通过 Bash Shell 创建 Hive 表错误

c# - Windows 集成 (NTLM) 身份验证与 Windows 集成 (Kerberos)
Windows 集成 (NTLM) 身份验证和 Windows 集成 (Kerberos) 之间有什么区别？如何在IIS6中实现这些 w.r.t. MSDN 最佳答案 Kerberos 和 NTLM
node.js - 无法将 Keycloak 与 Sails 集成。能够将 Keycloak 与 Express 集成
Keycloak是一个用 Java 编写的开源身份验证和身份管理解决方案。它提供了一个nodejs适配器，使用它我能够成功地与express集成。这是有效的路由文件: 'use strict'
Bamboo 集成
这是我关于 Bamboo 的第二个问题 ( My First One )。阅读建议信息后我的理解是，我需要一个构建工具，例如 nAnt 或 MSbuild 来编写一个获取源代码并构建它的脚本(我正在开
JIRA 集成
可用于将第三方应用程序与 jira 4.3 集成的身份验证方案有哪些？显然，从客户那里获取用户名和密码听起来很荒谬。另外，我知道 oauth 身份验证仅适用于版本 5。请告诉我。谢谢。附注。我不是在
JMS/DDS 集成
我有一个使用 DDS 的旧版 C++ 应用程序用于异步通信/消息传递。我需要将此应用程序集成到使用 JMS 进行消息传递的 JavaEE 环境中。除了构建独立的 JMS/DDS 桥接模块之外，我还有其
Clickatell - Whatsapp 集成
我正在尝试使用 Whatsapp 发送测试消息，但收到此错误消息: "error":{"code":27,"description":"Recipient not available on chann
django - 集成 Photologue
我想将 photologue 与我的 Django 应用程序集成，并使用它在车辆库存中显示照片......有点像 Boost Motor Group Inc. 提供的内容。我已经集成了该应用程序，所以
scanning - ScanSnap 集成
我目前正在尝试弄清楚如何与 fujitsu scansnap 扫描仪集成，但没有从 fujitsu 找到有关 fujitsu scansnap 管理器如何调用您的应用程序并将文件发送到您的应用程序的详
Spring 集成 - 多入站适配器不起作用
在我的项目中，我使用了 9 个(九个)int-ip:udp-inbound-channel-adapter 和一个 jms:inbound-channel-adapter。 Jms 适配器从服务器接收
JSF/Applet 集成
在我们当前的原型(prototype)中，大多数标准 HTML 控件都被小程序取代，最重要的是表单提交由小程序触发。有没有一种方法可以像一样在服务器端调用关联的操作 ? 本文Applet and
Twilio whatsapp 集成
是否可以使用 twilio 号码从 whatsapp 发送/接收短信？有人用whatsapp试过twilio吗？我问过客服，如果可能的话，他说，不确定，但很多人都问过这个问题。最佳答案万一其他人来
svn - SVN是否与Notepad++集成？
我们办公室中几乎不存在版本控制，这显然导致了很多麻烦。我们想使用SVN和Notepad++进行设置...任何人都对如何实现此目标有任何想法？我已经开始研究并浏览了这个网站: http://www.sw
Spring-Drools 集成？
曾经有提供这种集成的 spring-modules 项目；但是，该项目现已弃用。现在有没有人继续支持这种集成？谢谢。最佳答案工作正在进行中。 http://blog.athico.com/sear
DBpedia/Yago 集成
我的理解是，根据 http://wiki.dbpedia.org/Datasets，DBpedia 从 YAGO 获取类层次结构，而不是实体。 .但是，类似 http://dbpedia.org/cl
Opencms Spring 集成
任何人都可以帮助我如何将 OpenCMS 与 Java Spring Web 应用程序集成。已经用谷歌搜索并浏览了很多网站但没有用。所以，请帮助我。最佳答案我认为将 SpringMVC 与 Ope
integration - MPGS 集成
我正在尝试使用新的 migs getaway (MPGS) 我遵循了下一个 url 中的代码 https://ap-gateway.mastercard.com/api/documentation/i
TeamCity gitlab 集成
关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。想改善这个问题吗？更新问题，使其成为 on-topic对于堆栈溢出。 4年前关闭。 Improve thi
Vim Cmake 集成
我有一个 cmake 项目。我想轻松完成以下操作搜索光标下任何变量、函数等的声明、定义和引用，这些可能在外部头文件中声明，其路径是在CMakeLists.txt中使用INCLUDE_DIRECTOR
iPhone FTP 集成
有人能给我指点一下 Objective-C(或 c/c++)库的方向，或者教通过 FTP 上传或下载的教程(Objective-C)吗？最好能展示如何将文件下载到临时目录，然后稍后上传？我不介意针对
r - 集成()给出了完全错误的数字
集成()给出了非常错误的答案: integrate(function (x) dnorm(x, -5, 0.07), -Inf, Inf, subdivisions = 10000L) # 2.127

首页

博学

6Ren·AI

商城

python - 如何将 Scrapy Web 爬虫与 Luigi 数据管道集成？