gpt4 book ai didi

parquet - 我可以在写入之前使用 Athena/Presto 对表格进行排序吗?

转载 作者:行者123 更新时间:2023-12-02 03:19:54 24 4
gpt4 key购买 nike

我想将我的日志存档为 Parquet 格式。在写表之前,我想按c列排序,这样每个Parquet文件只会有一个小范围的c。这将允许 Athena/Presto 在查询包含 c 列上的 WHERE 子句时有效地扫描表(通过谓词下推)。

但是,我不清楚是否可以使用 Athena 或 Presto 对整个表进行排序。我需要一种分布式排序——而不是在单个节点上进行的排序——因为数据集太大,无法放在单个节点上。这种可能吗?如果是这样,我该如何调用它?

最佳答案

Presto 支持 distributed sort since 0.206 .雅典娜是currently based on Presto 0.172我不知道他们是否向后移植了此功能。

所以你的选择是

关于parquet - 我可以在写入之前使用 Athena/Presto 对表格进行排序吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55116541/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com