gpt4 book ai didi

hadoop - Lzo 文件不会在配置单元作业中拆分

转载 作者:可可西里 更新时间:2023-11-01 16:49:28 24 4
gpt4 key购买 nike

我们在 s3 中有 3 个 .lzo 文件和相应的 .index 文件。我们正在这些文件的目录上创建一个外部表。每个 lzo 文件的大小为 100MB+,每个文件的未压缩大小为 800+MB block 大小为 128MB。当我们运行配置单元查询时,不幸的是只有 3 个映射器被生成,这表明没有发生 split ,可能是什么问题?

最佳答案

Splittable 仅在压缩文件的大小大于拆分大小时适用。 Hive 默认拆分大小为 256 MB。

在 Hive session 中修改拆分大小并运行查询。

set mapreduce.input.fileinputformat.split.minsize=64000000

关于hadoop - Lzo 文件不会在配置单元作业中拆分,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34060316/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com