gpt4 book ai didi

hadoop - 在Hadoop中使用CombineFileInputFormat

转载 作者:行者123 更新时间:2023-12-02 21:50:07 26 4
gpt4 key购买 nike

我正在尝试编写一个Map Reduce程序,为此,我要输入大约1000个小文件(每个文件的大小为几MB)。据我了解,这将导致大约1000个映射器任务被创建(HDFS块大小默认为64MB)。因此,在这种情况下,使用CombineFileInputFormat比TextInputFormat更有效。我对么?

如果是这样,如何在我的程序中使用CombineFileInputFormat?

最佳答案

Hadoop API尚未提供CombineFileInputFormat的完全具体的实现。
我自己实现了一些。看看:https://github.com/thomachan/Custom-MR/tree/master/src/mapreduce/hi/api/input/defaultcustom

关于hadoop - 在Hadoop中使用CombineFileInputFormat,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21767128/

26 4 0
文章推荐: hadoop - 在同一集群中安装Hadoop的第二个副本?
文章推荐: 重新调整一个因素
文章推荐: css - 显示:inline-block in

and

Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com