gpt4 book ai didi

hive - Athena (Hive/Presto) Parquet vs ORC In Count Query

转载 作者:行者123 更新时间:2023-12-04 04:12:09 25 4
gpt4 key购买 nike

我正在 athena 中以 parquet 和 orc 格式测试大型数据集(1.5TB,5.5b 记录)。我的第一个测试是一个简单的测试,一个计数查询——

SELECT COUNT(*) FROM events_orc
SELECT COUNT(*) FROM events_parquet

parquet 文件需要一半时间来作为 orc 文件运行此查询。但我注意到的一件事是,在对 Parquet 文件进行计数时,它返回 0kb作为扫描的字节,使用兽人,它返回 78gb .这对 Parquet 很有意义,因为计数在元数据中,无需扫描字节。兽人也有一个带有计数的元,但它似乎没有使用该元来确定这些文件的计数。

为什么 Athena 不使用 orc 文件中的元数据来确定计数,而在 Parquet 文件中显然是这样?

最佳答案

答案正如您所说,Athena 读取 Parquet 元数据,而不是 ORC。除了该功能不在 Athena 使用的 Presto 和/或 ORC serde 版本之外,没有其他原因。
我还注意到 Athena 在使用 ORC 时读取了太多数据,它不会跳过它应该跳过的列,等等。我认为 Athena ORC serde 只是旧的并且没有您期望的所有优化。 Athena 毕竟是基于一个非常古老的 Presto 版本。

关于hive - Athena (Hive/Presto) Parquet vs ORC In Count Query,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/61529843/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com