gpt4 book ai didi

amazon-web-services - aws 胶水是否默认处理新数据?

转载 作者:行者123 更新时间:2023-12-04 17:46:30 26 4
gpt4 key购买 nike

this例子。它从 s3 目录读取数据,然后写回 s3 文件夹。但是如果我添加数据并重新运行这个作业呢?我是对的aws胶读写全部 又是数据?或者它只检测(如何?)新数据并只写入它?

顺便说一下,如果我从分区数据中读取,我必须自己指定“新到达”分区吗?

最佳答案

从我在该示例中看到的情况来看,他们正在从 S3 中已爬取的位置读取数据,然后每次都替换一个文件,完全重新加载所有数据。

要仅处理新文件,您需要 Bookmarks为您的工作启用,并确保您通过执行以下操作来提交工作:

args = getResolvedOptions(sys.argv, [‘TempDir’,’JOB_NAME’])
glue_context = GlueContext(SparkContext.getOrCreate()

# Instantiate your job object to later commit
job = Job(glue_context)
job.init(args[‘JOB_NAME’], args)

# Read file, if you enable Bookmark and commit at the end, this will only
# give you new files
dynamic_frame = glueContext.create_dynamic_frame.from_catalog(database = db_name, table_name = tbl_name)

result_dynamic_frame = # do some operations

# Append operation to create new parquet files from new data
result_dynamic_frame.toDF().write
.mode("append")
.parquet("s3://bucket/prefix/permit-inspections.parquet")

# Commit my job so next time we read, only new files will come in
job.commit()

希望这可以帮助

关于amazon-web-services - aws 胶水是否默认处理新数据?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48284218/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com