gpt4 book ai didi

amazon-web-services - 手动设置 AWS Glue ETL 书签

转载 作者:行者123 更新时间:2023-12-05 01:29:36 29 4
gpt4 key购买 nike

我的项目正在过渡到新的 AWS 账户,我们正试图找到一种方法来保留我们的 AWS Glue ETL 书签。我们有大量经过处理的数据正在复制到新帐户,并希望避免重新处理。

据我了解,Glue 书签只是后端的时间戳,理想情况下我们能够获取旧书签,然后在新 AWS 账户中手动设置匹配作业的书签。

看起来我可以使用以下方法通过 AWS CLI 获取我现有的书签:

get-job-bookmark --job-name <value>

( Source )

但是,我一直找不到任何可能在新帐户中设置书签的方法。

就解决方法而言,我最好的选择似乎是:

  1. 为我们的 Glue 爬虫上的所有 S3 数据源添加排除模式,尽管这将不再允许我们通过 Glue 目录(我们目前用于跟踪记录和文件)跟踪任何现有的未处理数据计数)。这看起来是迄今为止最好的选择......
  2. 尝试在新帐户中抓取我们的旧(复制)数据之前运行 Glue ETL 作业,将书签设置为超过我们复制的 S3 对象的创建时间。然后,一旦我们爬取了复制的数据,ETL 作业就会认为它们比当前书签时间更早,并且不会在下一次运行时处理它们。但是,这个 hack 似乎不起作用,因为我在测试时最终处理了所有数据。

真的在这里不知所措,AWS Glue 论坛是一座鬼城,过去没有帮助。

最佳答案

我无法使用上述问题中的方法手动设置书签或获取书签以手动前进和跳过数据。

但是,我能够使用以下步骤让 Glue ETL 作业跳过数据并推进其书签:

  1. 确保禁用任何 Glue ETL 计划

  2. 添加你想跳转到S3的文件

  3. 抓取 S3 数据

  4. 注释掉 Glue ETL 作业的 Spark 代码的处理步骤。我只是在初始动态框架创建之后注释掉了所有 dynamic_frame 步骤,直到 job.commit()

    sc = SparkContext()
    glueContext = GlueContext(sc)
    spark = glueContext.spark_session
    job = Job(glueContext)
    job.init(args['JOB_NAME'], args)

    # Create dynamic frame from raw glue table
    datasource0 =
    glueContext.create_dynamic_frame.from_catalog(database=GLUE_DATABASE_NAME,
    table_name=JOB_TABLE, transformation_ctx="datasource0")

    # ~~ COMMENT OUT ADDITIONAL STEPS ~~ #

    job.commit()
  5. 照常启用书签运行 glue etl 作业

  6. 将 Glue ETL Spark 代码恢复正常

现在,Glue ETL 作业的书签已经处理,并且将跳过在第 5 步中运行的该作业上处理的任何数据。下次将文件添加到 S3 并进行爬取时,它将由 Glue ETL 作业正常处理。

如果您知道您将获得一些您不想处理的数据,或者如果您正在转换到一个新的 AWS 账户并像我一样复制所有旧数据,这将很有用。如果有一种方法可以在 Glue 中手动设置书签时间就好了,这样就没有必要了。

关于amazon-web-services - 手动设置 AWS Glue ETL 书签,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/67680439/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com