gpt4 book ai didi

hadoop - Hadoop 权威指南的面向列的格式章节中的序列顺序?

转载 作者:可可西里 更新时间:2023-11-01 15:21:23 24 4
gpt4 key购买 nike

Hadoop:权威指南第 4 版的第 137 页,它讨论了面向列的格式文件并显示了下面的图片。

enter image description here

在RCFile中,为什么数字的顺序是1,4,2,5,3,6,7,10,8,11,9,12而不是1 ,4,7,10,2,5,8,11,3,6,9,12?

最佳答案

首先,RC不是columnar file,它是Record Columnar文件。RC 和 ORC 是可拆分的。这意味着您不会读取所有文件而只获取几行,并且可以由许多容器并行读取。这就是我们需要拆分的原因。

Splits 包含组合在一起的行,并且可以相互独立地读取,同时列也在 splits 内分组。相似的数据可以更好地压缩,所以如果将列组合在一起,它可以提高压缩率。在您的示例中,一个拆分包含仅两行,但它可以包含 10000 行或更多行。

什么官方documentation说到 RC 文件:

  • 作为行存储,RCFile 保证同一行中的数据位于在同一个节点。

  • 作为列存储,RCFile 可以利用列式数据压缩和跳过不必要的列读取。

另请参阅 ORC .使用 ORC 中的索引,可以轻松地在最低级别上过滤 strip 。此功能称为谓词下推。

关于hadoop - Hadoop 权威指南的面向列的格式章节中的序列顺序?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52670525/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com