python - AWS Glue Job Cloudformation - Cloudformation 中设置的值不固定-6ren

python - AWS Glue Job Cloudformation - Cloudformation 中设置的值不固定

转载作者：行者123 更新时间：2023-12-03 07:13:52

24

4

下面的 Cloudformation 设置未按我的预期运行。以下变量未使用下面的模板进行设置。手动设置变量后，作业将成功运行。

IAM 角色
类型
语言

Description: "AWS Glue Job Test"
Resources:
  MyJobRole:
    Type: AWS::IAM::Role
    Properties:
      AssumeRolePolicyDocument:
        Version: "2012-10-17"
        Statement:
          -
            Effect: "Allow"
            Principal:
              Service:
                - "glue.amazonaws.com"
            Action:
              - "sts:AssumeRole"
      Path: "/"
      Policies:
        -
          PolicyName: "root"
          PolicyDocument:
            Version: "2012-10-17"
            Statement:
              -
                Effect: "Allow"
                Action: "*"
                Resource: "*"
  MyJob:
    Type: AWS::Glue::Job
    Properties:
      Name: cf-job1
      Command:
        Name: test-etl1
        ScriptLocation: "s3://project_bucket/releases/latest/mixpanel_job.py"
        PythonVersion: "3"
      Description: "Testing setup config"
      ExecutionProperty:
        MaxConcurrentRuns: 2
      MaxRetries: 2
      GlueVersion: "3.0"
      WorkerType: "G.1X"
      NumberOfWorkers: 2
      Timeout: 2880
      DefaultArguments:
        "--class": "GlueApp"
        "--enable-continuous-cloudwatch-log": "true"
        "--enable-job-insights": "true"
        "--enable-metrics": "true"
        "--enable-spark-ui": "true"
        "--extra-jars": "s3://project_bucket/releases/latest/jars/delta-core_2.12-1.0.1.jar"
        "--extra-py-files": "s3://project_bucket/releases/latest/lib.zip"
        "--job-bookmark-option": "job-bookmark-disable"
        "--job-language": "python"
        "--spark-event-logs-path": "s3://project_bucket/logs/"
      Role: !Ref MyJobRole

Result of Stack

最佳答案

这是 Glue 团队中 AWS Cloudformation 的一个已知问题。

只能使用指向另一个 ROLE 的物理 ARN 字符串值来设置运行作业的默认 IAM 角色

--作业语言参数设置不正确，这是一个已知问题。这必须通过 Glue 控制台手动完成

控制台中的Type参数仍然没有cloudformation参数，必须手动设置。

目前还无法实现真正的自动化。

关于python - AWS Glue Job Cloudformation - Cloudformation 中设置的值不固定，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/72684005/

24

4

0

文章推荐： amazon-s3 - 读取CDK中的bucket对象

文章推荐： amazon-ec2 - CDK/CloudFormation 批量设置不稳定错误

文章推荐： github - 将(私有(private))Github 存储库克隆到 EC2

aws-glue - AWS Glue - 如何查询 LOCATION 的 Glue 目录？
任何人都知道如何(Athena w Glue)返回我知道其表名的表的完整 s3://地址。比如: SELECT location FOR TABLE xyz; 看起来很简单，但我找不到它最佳答案找
aws-glue - 我可以在基于 Python 的 Glue 作业中的 Glue 连接上执行任意 SQL 吗？
在我的 Glue 工作中，我可以访问一个“连接”，它授予访问某种数据库(在我的例子中是 Redshift)的权限。我可以用 glue_context.write_dynamic_frame.from_
aws-glue - AWS Glue Job运行太慢
我们有以下要求: 从1990年到2018年的年度XML文件(大小为15-20 GB) 每周XML文件(大小为3-6 GB)，其中包含更新的XML记录到1990年至2018年的任何年度数据我们需要运行
aws-glue - Aws Glue 目录表保留
来自 aws 文档中的这个 https://docs.aws.amazon.com/glue/latest/dg/aws-glue-api-catalog-tables.html ，他们提到了这个 ”
amazon-web-services - 从正在运行的 AWS Glue 作业的上下文中使用 boto3 调用 AWS Glue 客户端 API 时，AWS Glue 作业挂起？
我正在尝试创建一个 Glue 作业，它枚举目录中数据库中的所有表。为此，我使用以下代码片段: session = boto3.Session(region_name='us-east-2') glue
aws-glue - 在 AWS Glue 中读取配置文件
在部署到 AWS Glue 之前，我创建了一个 Glue 开发端点来测试我的代码。下面是项目架构的屏幕截图。 Project layout在 gluelibrary/中有 config.ini 我能够
aws-glue - 是否可以使用一个 AWS Glue 作业将数据写入不同的数据库？
我计划使用 AWS Glue 来完成一项简单的工作，即从 AWS s3 存储桶中提取数据并将其加载到 RDS 数据库中。计划是使用 AWS 向导创建一个 python 脚本，修改最少。问题是我需要将
aws-glue - AWS glue 每次都将完整数据从源复制到目标，即使有书签也是如此
我有一个从 aws glue 控制台中的向导生成的胶水作业。我没有更改生成任务时的默认脚本。它从 posgres 数据库表(源)获取数据并写入另一个 postgres 数据库(目标)。我在ide中选择
aws-glue - AWS Glue Crawler 命名约定
我尝试抓取的 s3 路径中有许多项目(使用根路径 s3://my-bucket/somedata/ ) s3://my-bucket/somedata/20180101/data1/stuff.txt
r - 使用 glue::glue 粘贴会更改 facet 中值的顺序
基于此回复 How to add greek letters to Facet_Grid strip labels? ，我成功地创建了一个在 facet 标签中带有希腊字母的 ggplot。但是胶水
aws-glue - AWS Glue - 启动 ETL 作业并挂起执行
有时，当我想在 AWS Glue 中运行 ETL 作业时，它会立即触发。但是我经常遇到在 ETL 作业执行任何操作之前需要几分钟的时间 - 我在日志中看不到任何内容，只有“待执行”。有什么办法可以影响
aws-cloudformation - 如何使用云形成在 Glue 爬虫中指定 Glue 表和模式
我正在使用 CFT 创建 Glue 数据库、Glue 表和 Glue Crawler，请在下面找到我的代码。在我的 Glue Crawler 中，我想在 Glue Crawler 中指定粘合表“myT
python - 如何使用 AWS Glue Operator 触发 Glue 作业
我的 Airflow 脚本只有一个任务来触发粘合作业。我能够创建 DAG。下面是我的 DAG 代码。 from airflow import DAG from airflow.operators.em
amazon-web-services - 在 Glue 作业中创建 Glue 数据目录表
我有一个我认为非常简单的要求。我想创建一个作业，将一个文件转换为另一个文件，然后更新 Glue 中的数据目录元数据。这将允许另一个作业获取新数据源并使用 Glue/EMR/Athena 使用它。现
aws-glue - 通过 AWS Glue Python 脚本连接到 Postgres
通过 AWS Glue 文档，我看不到任何关于如何通过“Python shell”类型的 Glue 作业连接到 Postgres RDS 的内容。我已经在 AWS Glue 中设置了 RDS 连接并验
aws-glue - 来自 AWS secret 管理器的 AWS Glue 连接
在 AWS Glue 中创建 JDBC 连接时，有什么方法可以从 AWS secret manager 获取密码而不是手动硬编码吗？最佳答案我必须在我当前的项目中这样做才能连接到 Cassandr
aws-glue - 如何在 Python Shell Glue 作业中使用 CloudWatch 自定义日志组？
我有一些“Python Shell”类型的 Glue 作业，我想将作业日志发送到自定义 CloudWatch 日志组而不是默认日志组。通过提供如下作业参数，我能够为“Spark”类型的胶水作业实现这
aws-glue - 使用来自外部 REST API 的数据的 AWS Glue 作业
我正在尝试创建一个工作流，其中 AWS Glue ETL 作业将从外部 REST API 而不是 S3 或任何其他 AWS 内部源提取 JSON 数据。这甚至可能吗？有人做吗？请帮忙! 最佳答案
python - AWS Glue - 如何使用 BOTO3 更改 Glue Catalog 表中的列名？
我正在使用 AWS Glue 爬虫从 S3 zip 文件(无 header )中读取并填充 Glue 目录。列默认命名为:col_0、col_1... 如何使用例如更改这些列名称python bot
AWS Glue: How to write to S3 cross account(AWS Glue：如何写入S3交叉账户)
我的帐户(帐户本地)中有一个Glue作业，我需要将ETL输出写入另一个帐户(帐户远程)。该作业以本地帐户中的IAM角色运行：glue-job-ole。Account-Remote中有一个IAM角色，名

首页

博学

6Ren·AI

商城

python - AWS Glue Job Cloudformation - Cloudformation 中设置的值不固定