gpt4 book ai didi

sql - hadoop orc表始终只使用一个映射器

转载 作者:可可西里 更新时间:2023-11-01 14:57:38 24 4
gpt4 key购买 nike

在我当前的项目中,我正在处理具有快速压缩格式的 Orc 文件,我运行的任何查询都只使用一个映射器运行。我尝试配置 mapred.max.split.size 和 mapred.min.split。大小,但未显示映射器数量的任何变化。reducer 数量足够好,但由于映射器是单个映射器,运行简单查询的时间。

根据 x 从 z 组中选择 x,max(y) ;需要将近 20 分钟才能完成映射器。我应该做些什么来增加映射器的数量。

请不要告诉我使用分区或桶,因为我已经在我的表中使用过它们。

最佳答案

尝试使用 tblproperties orc.stripe.size。

strip 大小的默认值为 256 MB,从技术上讲,每个 strip 都有一个映射器。随着单个 strip 大小的减小,您可以增加映射器的数量。

关于sql - hadoop orc表始终只使用一个映射器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35017503/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com