gpt4 book ai didi

aws-glue - 等待爬虫和作业作为胶水作业触发器的依赖项

转载 作者:行者123 更新时间:2023-12-04 00:29:20 25 4
gpt4 key购买 nike

我试图弄清楚如何编排一个上游依赖于爬虫以及粘合作业的作业。

目前,AWS Glue 作业触发器支持完成其他作业,但不支持爬网程序。如果我想在 PrevJobA 和 CrawlerB 完成后执行一项工作,有没有人找到这样做的好方法?

从另一个问题来看,爬虫似乎会发出 CloudWatch Events。爬虫是否有可能通过使用 lambda 发送事件来假装是一份工作?
How to kick off AWS Glue Job when Crawler Completes

最佳答案

不幸的是,没有内置选项来设置 Glue 爬虫和作业之间的依赖关系。但是,您可以 orchestrate it using StepFunction and Lambdas或使用 CloudWatch 事件和 Lambda 实现自动化。

第一个更灵活和清晰,因为您正在构建一个工作流程,其中包含您可以监控的任何复杂步骤。通过 AWS SDK 调用 Glue API 触发爬网程序和作业。 .顺便说一句,最近 AWS 宣布 native support of Glue jobs invocations所以它消除了拥有一两个 Lambda 的需要。

使用 CloudWatch 事件可以实现一些简单的情况(例如在爬虫完成时触发作业)。 CloudWatch 规则的创建方式与任何其他类型的 CW 事件相同,您只需选择适当的事件类型(请参阅 events for "detail-type":"Glue Crawler State Change")。使用这种方法,以视觉方式监控当前正在发生的事情并不是很方便,但是对于简单的情况,它仍然是一个很好的解决方案。

除此之外,您可以将这两种方法结合起来,以便 Glue 根据定义的时间表触发爬虫,CloudWatch 规则在从 Glue Crawler 接收到“成功”事件时触发 Lambda,然后 Lambda 触发 StepFunction 以正确的顺序启动 ETL 作业。

关于aws-glue - 等待爬虫和作业作为胶水作业触发器的依赖项,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53624146/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com