- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我试图弄清楚如何编排一个上游依赖于爬虫以及粘合作业的作业。
目前,AWS Glue 作业触发器支持完成其他作业,但不支持爬网程序。如果我想在 PrevJobA 和 CrawlerB 完成后执行一项工作,有没有人找到这样做的好方法?
从另一个问题来看,爬虫似乎会发出 CloudWatch Events。爬虫是否有可能通过使用 lambda 发送事件来假装是一份工作?
How to kick off AWS Glue Job when Crawler Completes
最佳答案
不幸的是,没有内置选项来设置 Glue 爬虫和作业之间的依赖关系。但是,您可以 orchestrate it using StepFunction and Lambdas或使用 CloudWatch 事件和 Lambda 实现自动化。
第一个更灵活和清晰,因为您正在构建一个工作流程,其中包含您可以监控的任何复杂步骤。通过 AWS SDK 调用 Glue API 触发爬网程序和作业。 .顺便说一句,最近 AWS 宣布 native support of Glue jobs invocations所以它消除了拥有一两个 Lambda 的需要。
使用 CloudWatch 事件可以实现一些简单的情况(例如在爬虫完成时触发作业)。 CloudWatch 规则的创建方式与任何其他类型的 CW 事件相同,您只需选择适当的事件类型(请参阅 events for "detail-type":"Glue Crawler State Change")。使用这种方法,以视觉方式监控当前正在发生的事情并不是很方便,但是对于简单的情况,它仍然是一个很好的解决方案。
除此之外,您可以将这两种方法结合起来,以便 Glue 根据定义的时间表触发爬虫,CloudWatch 规则在从 Glue Crawler 接收到“成功”事件时触发 Lambda,然后 Lambda 触发 StepFunction 以正确的顺序启动 ETL 作业。
关于aws-glue - 等待爬虫和作业作为胶水作业触发器的依赖项,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53624146/
bucket/ ├── seoul/ │ ├── weather/ │ │ └── data.json │ └── gdp/ │ └── data.json ├── tok
我创建了一个成功执行的 AWS 粘合作业。但是,我无法在作业中放置任何自定义日志记录。 如何在 AWS S3 存储桶中创建日志文件,以便跟踪日常作业执行情况? 目前,当我的作业执行时,它会创建默认日志
我正在尝试将由我的 AWS Glue 爬虫映射到 Python 中的嵌套字典的表中的字段映射展开。但是,我找不到任何 Spark/Hive 解析器来反序列化 var_type = 'struct>,n
我们正在为 STM32 芯片上的 ARM Cortex M4 编写一些代码。 我的理解是 Cortex-M4 有一些 32 位指令,但这些不是 32 位 ARM 指令,它们只是一些特殊指令。我认为胶水
我已经定义了一个基本脚本来使用来自 redshift 中的一个表的数据创建 DF。我运行了该过程,但我已经为一条无法解释的消息而苦苦挣扎了一段时间。 日志中输出的错误为: “/mnt/yarn/use
我已经在 Scala 中学习了 Spark,但我对 pySpark 和 AWS Glue 还很陌生, 所以我遵循了 AWS 的这个官方教程。 https://docs.aws.amazon.com/j
我在 S3 中有一个 csv 文件,它没有任何引号。 例如。 dVsdfsCcn7j6,r:werwerwerwerwerwerwerwer,_User$SSSSSBFwJ,login,passwor
有谁知道在 Glue 作业中将源文件名添加为列的方法吗? 我们创建了一个流,我们在其中抓取 S3 中的一些文件以创建架构。然后,我们编写了一个将文件转换为新格式的作业,并将这些文件作为 CSV 写回另
一直在使用awsglue python shell作业构建简单的数据etl作业,对于spark作业,只使用过一两次转换为orc格式或在JDBC数据上执行spark sql。那么想知道每个用例的最佳/典
我正在创建 AWS Glue ETL 作业,但在文件检索方面遇到了一些障碍。 似乎以下代码仅获取根文件夹 2017 中的文件,而不再获取更多文件。有没有办法在其中包含所有子文件夹和文件? dyf =
我想使用 ETL 从 S3 读取数据。由于使用 ETL 作业,我可以设置 DPU 以加快速度。 但是我该怎么做呢?我试过 import sys from awsglue.transforms impo
我在本地开发了一个 pandas etl 脚本并且工作正常。 我准备了一个wheel文件并上传到s3。所有软件包都已正确安装。 但是,当脚本运行时,它显示 ImportError: cannot im
运行 AWS Glue 爬网程序时,它无法识别时间戳列。 我在 CSV 文件中正确格式化了 ISO8601 时间戳。首先,我希望 Glue 自动将这些归类为时间戳,但事实并非如此。 我还尝试了此链接中
为了使用 boto3 运行作业,documentation仅国家 JobName是必须的。但是,我的代码: def start_job_run(self, name): pri
为了使用 boto3 运行作业,documentation仅国家 JobName是必须的。但是,我的代码: def start_job_run(self, name): pri
我正在尝试从该作业的脚本访问 AWS ETL Glue 作业 ID。这是您可以在 AWS Glue 控制台的第一列中看到的 RunID,类似于 jr_5fc6d4ecf0248150067f2 .如何
使用 AWSglue 以及 AWS s3 和 s3fs,我提出了以下方案(以及其他尝试)。我什至在 https://s3fs.readthedocs.io/en/latest/ 上看到了例子但他们并没
我是一名优秀的程序员,十分优秀!