gpt4 book ai didi

hadoop - 如何限制配置单元中 Parquet 表的 Parquet 文件尺寸?

转载 作者:可可西里 更新时间:2023-11-01 14:52:54 25 4
gpt4 key购买 nike

我正在尝试在配置单元中创建 Parquet 表。我可以创建它,但是当我运行 analyze table mytable compute statistics 时;我得到这个结果:

numfiles=800, numrows=10000000, totalSize=18909876 rawDataSize=40000000

为什么表格由800个文件组成,只有180Mb?还有一个为什么要设置文件个数?我尝试使用 SET parquet.block.size=134217728 但结果是一样的

最佳答案

reducer 的数量决定了 parquet 文件的数量。

检查 mapred.reduce.tasks 参数。

例如您可能有一个只生成 100 行的 map-reduce 作业,但是如果 mapred.reduce.tasks 设置为 800(显式或隐式),您将有 800 个 parquet 文件作为输出(大部分parquet 文件将只有标题而没有实际数据)。

关于hadoop - 如何限制配置单元中 Parquet 表的 Parquet 文件尺寸?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34026764/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com