gpt4 book ai didi

hadoop - 使用 ORC 文件格式有什么缺点?

转载 作者:可可西里 更新时间:2023-11-01 14:55:29 25 4
gpt4 key购买 nike

我读过很多关于 ORC 文件格式在压缩和快速查询方面有多么出色的帖子,特别是与 Parquet 格式相比。我了解 ORC 如何跨行组拆分数据,将它们分割为列组,以及它如何使用元数据和内部统计信息来跳过整个数据 block 。我了解它对 Hive 特别有用,在查询加速方面以及您是否需要 Hive ACID 事务。

使用 ORC 有什么明显的缺点吗?

我想简要了解您何时绝对不想使用 ORC。到目前为止,我发现了一些关于它“不能很好地与 Spark 配合使用”,以及“对嵌套数据的效率较低”的模糊提示,我想更好地理解为什么会这样。

如果结果是重复的,我深表歉意,我还没有找到一个对此有彻底答案的问题。

最佳答案

我们遇到的一个让我们跳到 parquet 的场景是在 Spark 2.3 之前,没有用于 ORC 的向量化读取器。他们正在研究 parquet 和 Spark 中的 ORC 之间的功能对等,而 Spark 2.3 在实现这一目标方面确实大有作为。

我们在一个合理的大表和一个窗口函数上做了一个基准测试来计算一些复杂的东西,parquet 用 spark 2.1 打败了 orc。在宽表(500 多列)上,这变得非常明显。但是当谈到 Spark 2.3 时,我们的性能几乎完全相同。还要注意的是,spark 2.3 也附带了更新版本的 orc,因此使用它和使用新 spark 读取遗留表之间也存在性能差异。

您可以在他们的 JIRA 板上阅读更多相关信息 here .

关于hadoop - 使用 ORC 文件格式有什么缺点?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51651154/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com