gpt4 book ai didi

java - Athena 从 parquet 模式创建表

转载 作者:塔克拉玛干 更新时间:2023-11-03 04:33:38 25 4
gpt4 key购买 nike

有没有办法根据 avro 模式直接从 parquet 文件在 Amazon Athena 中创建表?模式被编码到文件中,所以我需要自己实际创建 DDL 看起来很愚蠢。

我看到了this还有另一个duplication

但它们与 Hive 直接相关,它不适用于 Athena。理想情况下,我正在寻找一种无需在控制台上定义即可以编程方式执行此操作的方法。

最佳答案

现在使用 AWS Glue 或多或少是可能的. Glue 可以抓取一堆不同的数据源,包括 Parquet files on S3 .发现的表被添加到 Glue 数据目录并可从 Athena 查询。根据您的需要,您可以安排 Glue 爬虫定期运行,或者您可以使用 Glue API 定义和运行爬虫。

如果您有许多共享模式的独立数据 block ,您还可以使用 partitioned table以减少为 Athena 提供新负载的开销。例如,我有一些每日转储加载到按日期分区的表中。只要架构不变,您接下来需要做的就是 MSCK REPAIR TABLE

关于java - Athena 从 parquet 模式创建表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43098859/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com