gpt4 book ai didi

amazon-s3 - s3 上数据的 Hive 分区

转载 作者:行者123 更新时间:2023-12-02 03:28:49 24 4
gpt4 key购买 nike

我们的数据使用 s3://bucket/YYYY/MM/DD/HH 存储,我们使用 aws firehouse 近乎实时地将 parquet 数据放置在这些位置。我可以使用 AWS athena 很好地查询数据,但是我们有一个配置单元查询集群,它在启用分区时给查询数据带来麻烦。

这就是我正在做的:分区方式(
`year` 字符串,
`month` 字符串,
`day` 字符串,
`小时` 字符串)

当 s3 上的数据存储为 s3:bucket/YYYY/MM/DD/HH 时,这似乎不起作用

但是这对 s3:bucket/year=YYYY/month=MM/day=DD/hour=HH 有效

鉴于 firehose 的严格存储桶路径,我无法修改 s3 路径。所以我的问题是,当您的数据路径上没有明确定义的列名(如 year = 或 month= )时,hive ddl 中正确的分区方案是什么?

最佳答案

现在您可以在 firehose 中指定 S3 前缀。 https://docs.aws.amazon.com/firehose/latest/dev/s3-prefixes.html

myPrefix/year=!{timestamp:yyyy}/month=!{timestamp:MM}/day=!{timestamp:dd}/hour=!{timestamp:HH}/

关于amazon-s3 - s3 上数据的 Hive 分区,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52415931/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com