gpt4 book ai didi

performance - 使用拼花格式时如何控制映射器的数量

转载 作者:行者123 更新时间:2023-12-02 21:22:44 25 4
gpt4 key购买 nike

我正在为 hive 表使用 Parquet 格式。我看到这些表的存储有了很大的改进。当我在那些表上运行一些查询时,与在文本格式的相同表上运行相同查询时相比,启动的映射器数量要少得多。因此,启动的映射器数量将大大减少,对 Parquet 格式的配置单元查询需要很长时间才能完成。 (我怀疑这是因为 Parquet 尺寸较小)。
有什么方法可以缩短 Parquet 格式的运行时间,换句话说,控制运行配置单元查询时的映射器数量?

最佳答案

如果将 hive 与Tez引擎一起使用,则默认输入格式(决定数据的分割数)是 HiveInputFormat 类。您可以使用set命令更改输入格式类,如下所示

set hive.input.format=hive.tez.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;

现在,您可以通过更改属性来控制输入拆分的数量
mapreduce.input.fileinputformat.split.maxsize mapreduce.input.fileinputformat.split.minsize
并将它们设置为所需的字节数。

如果每个文件的大小<< dfs.block.size,则 CombineHiveInputFormat 类还将单独的文件组合为单个拆分。

关于performance - 使用拼花格式时如何控制映射器的数量,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36880824/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com