gpt4 book ai didi

hadoop - Hadoop MapReduce:具有固定数量的输入文件?

转载 作者:行者123 更新时间:2023-12-02 21:46:44 26 4
gpt4 key购买 nike

用于Map Reducer作业

在我的输入目录中,大约有1000个文件。每个文件都包含GB的数据。

例如/MyFolder/MyResults/in_data/20140710/包含1000个文件。

当我将输入路径指定为/MyFolder/MyResults/in_data/20140710时,它将处理所有1000个文件。

我想一次只讲200个文件来完成一项工作。我们该怎么做?

这是我要执行的命令:

hadoop jar wholefile.jar com.form1.WholeFileInputDriver -libjars myref.jar -D mapred.reduce.tasks=15 /MyFolder/MyResults/in_data/20140710/ <<Output>>

有什么可以帮助我的,如何为输入文件运行像批处理一样的作业。

提前致谢

-Vim

最佳答案

一种简单的方法是将驱动程序修改为仅吸收该目录中所有文件中的200个文件作为输入。像这样:

FileSystem fs = FileSystem.get(new Configuration());
FileStatus[] files = fs.globStatus(new Path("/MyFolder/MyResults/in_data/20140710/*"));
for (int i=0;i<200;i++) {
FileInputFormat.addInputPath(job, files[i].getPath());
}

关于hadoop - Hadoop MapReduce:具有固定数量的输入文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24658140/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com