hadoop - KFS上的Mapreduce如何发生？-6ren

hadoop - KFS上的Mapreduce如何发生？

转载作者：行者123 更新时间：2023-12-02 20:11:31

我想了解在KFS作为Hadoop中的文件系统时mapreduce是如何发生的。

# ./bin/start-mapred.sh
If the map/reduce job/task trackers are up, all I/O will be done to KFS.

因此，假设我的输入文件分散在不同的节点(Kosmos服务器)中，我(使用KFS作为文件系统的hadoop客户端)如何发出Mapreduce命令？

此外，发出Mapreduce命令后，我的hadoop客户端会从不同的服务器获取所有数据到本地计算机，然后执行Mapreduce还是在输入文件所在的计算机上启动TaskTracker守护程序，以及在那里执行Mapreduce？
如果我错了，请纠正我，但是我想输入文件top Mapreduce的位置由getFileBlockLocations函数(FileStatus，long，long)返回。

非常感谢您的宝贵时间，并帮助了我。

问候，
尼基尔

最佳答案

否。MapReduce是在所有节点上以分布式方式运行的程序。主节点将像负责完成工作的所有数据/从节点的主管一样。

map 缩减任务

一个MapReduce作业通常将输入数据集拆分为独立的
map task 完全并行处理的块
方式。

该框架对 map 的输出进行排序，然后将其输入到
reduce task 。

通常，作业的输入和输出都存储在
文件系统。

该框架负责安排任务，监视任务和
重新执行失败的任务。

上图:3显示了MapReduce如何在节点级别发生。

现在介绍您的KFS:

当Hadoop map / reduce跟踪器启动时，这些进程(在本地节点和远程节点上)现在将需要加载KFS的libkfsClient.so库。

为了简化此过程，建议将 libkfsClient.so存储在NFS可访问目录中(类似于Hadoop二进制文件/脚本的存储位置)；然后，修改Hadoop的conf / hadoop-env.sh，添加以下行并为