aws-glue - 等待爬虫和作业作为胶水作业触发器的依赖项-6ren

aws-glue - 等待爬虫和作业作为胶水作业触发器的依赖项

转载作者：行者123 更新时间：2023-12-04 00:29:20

25

4

我试图弄清楚如何编排一个上游依赖于爬虫以及粘合作业的作业。

目前，AWS Glue 作业触发器支持完成其他作业，但不支持爬网程序。如果我想在 PrevJobA 和 CrawlerB 完成后执行一项工作，有没有人找到这样做的好方法？

从另一个问题来看，爬虫似乎会发出 CloudWatch Events。爬虫是否有可能通过使用 lambda 发送事件来假装是一份工作？
How to kick off AWS Glue Job when Crawler Completes

最佳答案

不幸的是，没有内置选项来设置 Glue 爬虫和作业之间的依赖关系。但是，您可以 orchestrate it using StepFunction and Lambdas或使用 CloudWatch 事件和 Lambda 实现自动化。

第一个更灵活和清晰，因为您正在构建一个工作流程，其中包含您可以监控的任何复杂步骤。通过 AWS SDK 调用 Glue API 触发爬网程序和作业。 .顺便说一句，最近 AWS 宣布 native support of Glue jobs invocations所以它消除了拥有一两个 Lambda 的需要。

使用 CloudWatch 事件可以实现一些简单的情况(例如在爬虫完成时触发作业)。 CloudWatch 规则的创建方式与任何其他类型的 CW 事件相同，您只需选择适当的事件类型(请参阅 events for "detail-type":"Glue Crawler State Change")。使用这种方法，以视觉方式监控当前正在发生的事情并不是很方便，但是对于简单的情况，它仍然是一个很好的解决方案。

除此之外，您可以将这两种方法结合起来，以便 Glue 根据定义的时间表触发爬虫，CloudWatch 规则在从 Glue Crawler 接收到“成功”事件时触发 Lambda，然后 Lambda 触发 StepFunction 以正确的顺序启动 ETL 作业。

关于aws-glue - 等待爬虫和作业作为胶水作业触发器的依赖项，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/53624146/

25

4

0

文章推荐： python-3.x - Python 3 - 多个 AsyncIO 连接

文章推荐： asp.net-core - 根据查询字符串路由到 Controller

文章推荐： Angular Observables 取消订阅异步管道

文章推荐： visual-studio-code - 在 VS 代码中包含路径和无效的转义字符

aws-glue - 胶水 S3 目标路径匹配两级特定子文件夹
bucket/ ├── seoul/ │ ├── weather/ │ │ └── data.json │ └── gdp/ │ └── data.json ├── tok
amazon-web-services - 登录 AWS 胶水
我创建了一个成功执行的 AWS 粘合作业。但是，我无法在作业中放置任何自定义日志记录。如何在 AWS S3 存储桶中创建日志文件，以便跟踪日常作业执行情况？目前，当我的作业执行时，它会创建默认日志
python - AWS 胶水 : How to expand nested Hive struct to Dict?
我正在尝试将由我的 AWS Glue 爬虫映射到 Python 中的嵌套字典的表中的字段映射展开。但是，我找不到任何 Spark/Hive 解析器来反序列化 var_type = 'struct>,n
arm - 为什么 Cortex-M4 在链接描述文件中包含 ARM to Thumb 胶水
我们正在为 STM32 芯片上的 ARM Cortex M4 编写一些代码。我的理解是 Cortex-M4 有一些 32 位指令，但这些不是 32 位 ARM 指令，它们只是一些特殊指令。我认为胶水
pyspark - 胶水 AWS : error occurred while calling o60. getDynamicFrame
我已经定义了一个基本脚本来使用来自 redshift 中的一个表的数据创建 DF。我运行了该过程，但我已经为一条无法解释的消息而苦苦挣扎了一段时间。日志中输出的错误为: “/mnt/yarn/use
python - 类型错误 : 'JavaPackage' object is not callable on PySpark, AWS 胶水
我已经在 Scala 中学习了 Spark，但我对 pySpark 和 AWS Glue 还很陌生，所以我遵循了 AWS 的这个官方教程。 https://docs.aws.amazon.com/j
aws-glue - AWS 胶水 : Removing quote character from a CSV file while writing
我在 S3 中有一个 csv 文件，它没有任何引号。例如。 dVsdfsCcn7j6,r:werwerwerwerwerwerwerwer,_User$SSSSSBFwJ,login,passwor
amazon-web-services - AWS 胶水 : How to add a column with the source filename in the output?
有谁知道在 Glue 作业中将源文件名添加为列的方法吗？我们创建了一个流，我们在其中抓取 S3 中的一些文件以创建架构。然后，我们编写了一个将文件转换为新格式的作业，并将这些文件作为 CSV 写回另
amazon-web-services - aws 胶水 python shell 作业与 spark 作业的最佳用例是什么？
一直在使用awsglue python shell作业构建简单的数据etl作业，对于spark作业，只使用过一两次转换为orc格式或在JDBC数据上执行spark sql。那么想知道每个用例的最佳/典
python - 胶水 etl 作业 - 使用 create_dynamic_frame.from_options 获取 s3 子文件夹
我正在创建 AWS Glue ETL 作业，但在文件检索方面遇到了一些障碍。似乎以下代码仅获取根文件夹 2017 中的文件，而不再获取更多文件。有没有办法在其中包含所有子文件夹和文件？ dyf =
amazon-web-services - AWS 胶水 : ETL to read S3 CSV files
我想使用 ETL 从 S3 读取数据。由于使用 ETL 作业，我可以设置 DPU 以加快速度。但是我该怎么做呢？我试过 import sys from awsglue.transforms impo
amazon-web-services - aws 胶水 `ImportError: cannot import name ' S3ArnParamHandler'`
我在本地开发了一个 pandas etl 脚本并且工作正常。我准备了一个wheel文件并上传到s3。所有软件包都已正确安装。但是，当脚本运行时，它显示 ImportError: cannot im
aws-glue - AWS 胶水 : Crawler does not recognize Timestamp columns in CSV format
运行 AWS Glue 爬网程序时，它无法识别时间戳列。我在 CSV 文件中正确格式化了 ISO8601 时间戳。首先，我希望 Glue 自动将这些归类为时间戳，但事实并非如此。我还尝试了此链接中
python - AWS 胶水 : Failed to start job run due to missing metadata
为了使用 boto3 运行作业，documentation仅国家 JobName是必须的。但是，我的代码: def start_job_run(self, name): pri
python - AWS 胶水 : Failed to start job run due to missing metadata
为了使用 boto3 运行作业，documentation仅国家 JobName是必须的。但是，我的代码: def start_job_run(self, name): pri
amazon-web-services - AWS 胶水 : get job_id from within the script using pyspark
我正在尝试从该作业的脚本访问 AWS ETL Glue 作业 ID。这是您可以在 AWS Glue 控制台的第一列中看到的 RunID，类似于 jr_5fc6d4ecf0248150067f2 .如何
python - 明确地说，如何让 s3fs 在 AWS 中打开 gz 文件？胶水/S3
使用 AWSglue 以及 AWS s3 和 s3fs，我提出了以下方案(以及其他尝试)。我什至在 https://s3fs.readthedocs.io/en/latest/ 上看到了例子但他们并没

首页

博学

6Ren·AI

商城

aws-glue - 等待爬虫和作业作为胶水作业触发器的依赖项