gpt4 book ai didi

hadoop - block 和条纹之间有什么区别?

转载 作者:行者123 更新时间:2023-12-02 18:49:28 25 4
gpt4 key购买 nike

从Hive的文档中:

If the table or partition contains many small RCFiles or ORC files, then the above command will merge them into larger files. In case of RCFile the merge happens at block level whereas for ORC files the merge happens at stripe level thereby avoiding the overhead of decompressing and decoding the data.



我的问题是:块和条纹之间有什么区别?

最佳答案

HDFS块是最低级别,ORC strip 是较高级别,这些级别是完全独立的,ORC中的 strip 并不关心较低的存储层。

HDFS块:

  • HDFS块是最低级别,与文件格式无关。 HDFS将文件拆分为多个块以优化存储。
  • 一个 strip 可以存储在多个块中,一个块可以包含多个 strip 或部分 strip 。 HDFS将分割文件,而不考虑 strip 格式或文件格式。
  • HDFS存储每个文件块的元数据,对于上层ORC读取器级别而言,读写文件是透明的,HDFS将处理所有块。

  • ORC条纹:
  • 较高级别的存储。 Stripe对块一无所知。
  • ORC可在 strip 级别拆分。 HDFS对ORC结构以及如何对其进行拆分以进行处理一无所知。 HDFS将文件拆分为多个块以优化存储。单个容器中至少可以处理一 strip 。您可以配置 strip 大小以适合块大小。

  • 一些有用的链接。请阅读以获得更好的理解:

    HDFS blocks

    HDFS block vs Stripe

    ORC optimizing

    Big ORC stripes and block padding in S3-非常有用的博客

    关于hadoop - block 和条纹之间有什么区别?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59812366/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com