gpt4 book ai didi

amazon-web-services - AWS Glue 使用与源表相同的分区将文件从 JSON 转换为 Parquet

转载 作者:行者123 更新时间:2023-12-03 14:39:31 28 4
gpt4 key购买 nike

我们正在使用 AWS 胶水来转换存储在我们的 S3 数据湖中的 JSON 文件。

这是我遵循的步骤,

  • 创建了一个爬虫,用于从我们的数据湖生成 Glue 表
    具有 JSON 数据的存储桶。
  • 新创建的表有如下分区,

    姓名、年、月、日、时
  • 创建了一个粘合作业以将其转换为 Parquet 并存储在不同的存储桶中

  • 通过这些过程,作业成功运行,但新存储桶中的数据未分区。它只是在一个目录下。

    我想要实现的是转换后的 Parquet 文件应该获得与源表/数据湖存储桶中相同的分区。

    另外,我想增加 Parquet 文件的文件大小(减少文件数)。

    谁可以帮我这个事?

    最佳答案

    尝试以下编写动态框架。

    glueContext.write_dynamic_frame.from_options(
    frame=<output_dataframe>,
    connection_type="s3",
    connection_options={"path": "s3://<output_bucket_path>",
    "partitionKeys": ["Name", "Year", "Month" , "day", "hour"]},
    format="parquet")

    关于amazon-web-services - AWS Glue 使用与源表相同的分区将文件从 JSON 转换为 Parquet,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48739503/

    28 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com