gpt4 book ai didi

amazon-web-services - 从 AWS Glue 中的动态框架覆盖 Parquet 文件

转载 作者:行者123 更新时间:2023-12-04 03:10:23 27 4
gpt4 key购买 nike

我使用动态框架在 S3 中编写 Parquet 文件,但如果文件已经存在,我的程序会附加一个新文件而不是替换它。我使用的句子是这样的:

glueContext.write_dynamic_frame.from_options(frame = table,
connection_type = "s3",
connection_options = {"path": output_dir,
"partitionKeys": ["var1","var2"]},
format = "parquet")

有没有类似 "mode":"overwrite"取代我的 Parquet 文件?

最佳答案

目前 AWS Glue 不支持“覆盖”模式,但他们正在研究此功能。

作为一种解决方法,您可以将 DynamicFrame 对象转换为 spark 的 DataFrame 并使用 spark 而不是 Glue 编写它:

table.toDF()
.write
.mode("overwrite")
.format("parquet")
.partitionBy("var_1", "var_2")
.save(output_dir)

关于amazon-web-services - 从 AWS Glue 中的动态框架覆盖 Parquet 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52001781/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com