gpt4 book ai didi

apache-spark - gzipped Parquet 文件在 HDFS for Spark 中可拆分吗?

转载 作者:行者123 更新时间:2023-12-03 04:52:00 26 4
gpt4 key购买 nike

在互联网上搜索和阅读有关此主题的答案时,我收到了令人困惑的消息。有人可以分享他们的经验吗?我知道 gzipped csv 不是这样的事实,但也许 Parquet 的文件内部结构是这样的,Parquet 与 csv 的情况完全不同?

最佳答案

使用 GZIP 压缩的 Parquet 文件实际上是可分割的。这是因为 Parquet 文件的内部布局。它们始终是可分割的,与所使用的压缩算法无关。

这一事实主要是由于 Parquet 文件的设计分为以下几部分:

  1. 每个 Parquet 文件由多个 RowGroup 组成,这些 RowGroup 的大小应与您的 HDFS block 大小相同。
  2. 每个 RowGroup 每列都包含一个 ColumnChunk。 RowGroup 中的每个 ColumnChunk 具有相同数量的 Row。
  3. ColumnChunk 被分割成页面,这些页面的大小可能为 64KiB 到 16MiB。 压缩是在每页的基础上完成的,因此页面是作业可以处理的最低并行化级别。

您可以在这里找到更详细的解释:https://github.com/apache/parquet-format#file-format

关于apache-spark - gzipped Parquet 文件在 HDFS for Spark 中可拆分吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43323882/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com