amazon-web-services - 手动设置 AWS Glue ETL 书签-6ren

amazon-web-services - 手动设置 AWS Glue ETL 书签

转载作者：行者123 更新时间：2023-12-05 01:29:36

30

4

我的项目正在过渡到新的 AWS 账户，我们正试图找到一种方法来保留我们的 AWS Glue ETL 书签。我们有大量经过处理的数据正在复制到新帐户，并希望避免重新处理。

据我了解，Glue 书签只是后端的时间戳，理想情况下我们能够获取旧书签，然后在新 AWS 账户中手动设置匹配作业的书签。

看起来我可以使用以下方法通过 AWS CLI 获取我现有的书签:

get-job-bookmark --job-name <value>

( Source )

但是，我一直找不到任何可能在新帐户中设置书签的方法。

就解决方法而言，我最好的选择似乎是:

为我们的 Glue 爬虫上的所有 S3 数据源添加排除模式，尽管这将不再允许我们通过 Glue 目录(我们目前用于跟踪记录和文件)跟踪任何现有的未处理数据计数)。这看起来是迄今为止最好的选择......
尝试在新帐户中抓取我们的旧(复制)数据之前运行 Glue ETL 作业，将书签设置为超过我们复制的 S3 对象的创建时间。然后，一旦我们爬取了复制的数据，ETL 作业就会认为它们比当前书签时间更早，并且不会在下一次运行时处理它们。但是，这个 hack 似乎不起作用，因为我在测试时最终处理了所有数据。

真的在这里不知所措，AWS Glue 论坛是一座鬼城，过去没有帮助。

最佳答案

我无法使用上述问题中的方法手动设置书签或获取书签以手动前进和跳过数据。

但是，我能够使用以下步骤让 Glue ETL 作业跳过数据并推进其书签:

确保禁用任何 Glue ETL 计划
添加你想跳转到S3的文件
抓取 S3 数据

注释掉 Glue ETL 作业的 Spark 代码的处理步骤。我只是在初始动态框架创建之后注释掉了所有 dynamic_frame 步骤，直到 job.commit()。

sc = SparkContext()
glueContext = GlueContext(sc)
spark = glueContext.spark_session
job = Job(glueContext)
job.init(args['JOB_NAME'], args)

# Create dynamic frame from raw glue table
datasource0 = 
glueContext.create_dynamic_frame.from_catalog(database=GLUE_DATABASE_NAME, 
table_name=JOB_TABLE, transformation_ctx="datasource0")

# ~~ COMMENT OUT ADDITIONAL STEPS ~~ #

job.commit()

照常启用书签运行 glue etl 作业
将 Glue ETL Spark 代码恢复正常

现在，Glue ETL 作业的书签已经处理，并且将跳过在第 5 步中运行的该作业上处理的任何数据。下次将文件添加到 S3 并进行爬取时，它将由 Glue ETL 作业正常处理。

如果您知道您将获得一些您不想处理的数据，或者如果您正在转换到一个新的 AWS 账户并像我一样复制所有旧数据，这将很有用。如果有一种方法可以在 Glue 中手动设置书签时间就好了，这样就没有必要了。

关于amazon-web-services - 手动设置 AWS Glue ETL 书签，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/67680439/

30

4

0

文章推荐： curl - curl FTP访问被拒绝

文章推荐： yodlee - 如何从 Yodlee 检索账户持有人的姓名

文章推荐： winapi - Windows API 中的 LONGLONG 数据类型

aws-glue - AWS Glue - 如何查询 LOCATION 的 Glue 目录？
任何人都知道如何(Athena w Glue)返回我知道其表名的表的完整 s3://地址。比如: SELECT location FOR TABLE xyz; 看起来很简单，但我找不到它最佳答案找
aws-glue - 我可以在基于 Python 的 Glue 作业中的 Glue 连接上执行任意 SQL 吗？
在我的 Glue 工作中，我可以访问一个“连接”，它授予访问某种数据库(在我的例子中是 Redshift)的权限。我可以用 glue_context.write_dynamic_frame.from_
aws-glue - AWS Glue Job运行太慢
我们有以下要求: 从1990年到2018年的年度XML文件(大小为15-20 GB) 每周XML文件(大小为3-6 GB)，其中包含更新的XML记录到1990年至2018年的任何年度数据我们需要运行
aws-glue - Aws Glue 目录表保留
来自 aws 文档中的这个 https://docs.aws.amazon.com/glue/latest/dg/aws-glue-api-catalog-tables.html ，他们提到了这个 ”
amazon-web-services - 从正在运行的 AWS Glue 作业的上下文中使用 boto3 调用 AWS Glue 客户端 API 时，AWS Glue 作业挂起？
我正在尝试创建一个 Glue 作业，它枚举目录中数据库中的所有表。为此，我使用以下代码片段: session = boto3.Session(region_name='us-east-2') glue
aws-glue - 在 AWS Glue 中读取配置文件
在部署到 AWS Glue 之前，我创建了一个 Glue 开发端点来测试我的代码。下面是项目架构的屏幕截图。 Project layout在 gluelibrary/中有 config.ini 我能够
aws-glue - 是否可以使用一个 AWS Glue 作业将数据写入不同的数据库？
我计划使用 AWS Glue 来完成一项简单的工作，即从 AWS s3 存储桶中提取数据并将其加载到 RDS 数据库中。计划是使用 AWS 向导创建一个 python 脚本，修改最少。问题是我需要将
aws-glue - AWS glue 每次都将完整数据从源复制到目标，即使有书签也是如此
我有一个从 aws glue 控制台中的向导生成的胶水作业。我没有更改生成任务时的默认脚本。它从 posgres 数据库表(源)获取数据并写入另一个 postgres 数据库(目标)。我在ide中选择
aws-glue - AWS Glue Crawler 命名约定
我尝试抓取的 s3 路径中有许多项目(使用根路径 s3://my-bucket/somedata/ ) s3://my-bucket/somedata/20180101/data1/stuff.txt
r - 使用 glue::glue 粘贴会更改 facet 中值的顺序
基于此回复 How to add greek letters to Facet_Grid strip labels? ，我成功地创建了一个在 facet 标签中带有希腊字母的 ggplot。但是胶水
aws-glue - AWS Glue - 启动 ETL 作业并挂起执行
有时，当我想在 AWS Glue 中运行 ETL 作业时，它会立即触发。但是我经常遇到在 ETL 作业执行任何操作之前需要几分钟的时间 - 我在日志中看不到任何内容，只有“待执行”。有什么办法可以影响
aws-cloudformation - 如何使用云形成在 Glue 爬虫中指定 Glue 表和模式
我正在使用 CFT 创建 Glue 数据库、Glue 表和 Glue Crawler，请在下面找到我的代码。在我的 Glue Crawler 中，我想在 Glue Crawler 中指定粘合表“myT
python - 如何使用 AWS Glue Operator 触发 Glue 作业
我的 Airflow 脚本只有一个任务来触发粘合作业。我能够创建 DAG。下面是我的 DAG 代码。 from airflow import DAG from airflow.operators.em
amazon-web-services - 在 Glue 作业中创建 Glue 数据目录表
我有一个我认为非常简单的要求。我想创建一个作业，将一个文件转换为另一个文件，然后更新 Glue 中的数据目录元数据。这将允许另一个作业获取新数据源并使用 Glue/EMR/Athena 使用它。现
aws-glue - 通过 AWS Glue Python 脚本连接到 Postgres
通过 AWS Glue 文档，我看不到任何关于如何通过“Python shell”类型的 Glue 作业连接到 Postgres RDS 的内容。我已经在 AWS Glue 中设置了 RDS 连接并验
aws-glue - 来自 AWS secret 管理器的 AWS Glue 连接
在 AWS Glue 中创建 JDBC 连接时，有什么方法可以从 AWS secret manager 获取密码而不是手动硬编码吗？最佳答案我必须在我当前的项目中这样做才能连接到 Cassandr
aws-glue - 如何在 Python Shell Glue 作业中使用 CloudWatch 自定义日志组？
我有一些“Python Shell”类型的 Glue 作业，我想将作业日志发送到自定义 CloudWatch 日志组而不是默认日志组。通过提供如下作业参数，我能够为“Spark”类型的胶水作业实现这
aws-glue - 使用来自外部 REST API 的数据的 AWS Glue 作业
我正在尝试创建一个工作流，其中 AWS Glue ETL 作业将从外部 REST API 而不是 S3 或任何其他 AWS 内部源提取 JSON 数据。这甚至可能吗？有人做吗？请帮忙! 最佳答案
python - AWS Glue - 如何使用 BOTO3 更改 Glue Catalog 表中的列名？
我正在使用 AWS Glue 爬虫从 S3 zip 文件(无 header )中读取并填充 Glue 目录。列默认命名为:col_0、col_1... 如何使用例如更改这些列名称python bot
AWS Glue: How to write to S3 cross account(AWS Glue：如何写入S3交叉账户)
我的帐户(帐户本地)中有一个Glue作业，我需要将ETL输出写入另一个帐户(帐户远程)。该作业以本地帐户中的IAM角色运行：glue-job-ole。Account-Remote中有一个IAM角色，名

首页

博学

6Ren·AI

商城

amazon-web-services - 手动设置 AWS Glue ETL 书签