gpt4 book ai didi

hadoop - 分配哪个映射器

转载 作者:可可西里 更新时间:2023-11-01 14:58:02 26 4
gpt4 key购买 nike

我正尝试在 Hadoop mapreduce 中加入某些安全功能,我想知道这一点。对于 mapreduce 程序,我如何知道分配了哪个映射器。

假设我正在编写 wordcount 示例并使用 5 个文件并且有一个机器集群。我怎么知道哪台机器访问了哪个文件?

最佳答案

您可以在映射器中使用以下代码:

CombineFileSplit split = (CombineFileSplit)context.getInputSplit();
Path[] paths = split.getPaths();
for (Path path : paths) {
//Source HDFS file path belongs to processing input split
}

但是你应该明白当映射器启动时它处理的不是一个文件。一般而言,映射器进程输入拆分可能由多个源 HDFS 文件组成。因此,我上面描述的方法可以返回多个输入文件。

关于hadoop - 分配哪个映射器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32922236/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com