gpt4 book ai didi

java - 在 Hadoop 中映射和减少类属性

转载 作者:可可西里 更新时间:2023-11-01 16:58:19 25 4
gpt4 key购买 nike

所以,我是 Hadoop 的新手,我有一个关于 hadoop 如何处理 Reducer 或 Mapper 类实现的属性的问题。

据我了解,reducer 的每个实例将在不同的 JVM 中执行,因此它们之间没有共享内存。问题是,如果所有 reducer 都试图访问它,Hadoop 如何处理对在 reducer 函数外部定义的属性的并发访问。更重要的是,如果我尝试在 reducer 中实例化一个变量会发生什么。根据我对并行编程的理解,如果这种操作不是在临界区或原子变量上进行的,就会出现竞争条件。

一个简短的例子:

public class SequenceBuilderRed extends Reducer<Text, Text, Text, IntWritable> 
{
private HashMap<String,myClass> myHashMap;
protected void setup(Reducer<Text,Text,Text,IntWritable>.Context context) throws IOException, Interrupted Exception
{
myHashMap=new HashMap<String,myClass>();
}

protected void reduce(Text key Iterable<Text> values, Reducer <Text,Text,Text,IntWritable>.Context context) throws IOException, InterruptedException
{
for(Text value:values)
{
if(!myHashMap.containsKey(value.toString())
{
myClass newObject = new myClass();
myHashMap.put(value.toString(),newObject);
}
}
}
}

在这种情况下,如果有不同的 reducer 具有相同的 Text 作为值,会发生什么情况?

谢谢!

最佳答案

From what I understand, each of the instances of the reducer will be executed in a different JVM, then, there is no shared memory in between them.

是的,Mapper 和 Reducer 的每个实例都将根据数据局部性在不同的 JVM 中执行,通常在不同的机器上。因此,它们基于无共享架构。

The question is, how Hadoop handle the concurrent access to an attribute defined outside the reducer function, if all the reducers are trying to access it.

Hadoop 不允许在一个 Mapper/Reducer 类中定义的属性在多个 Mapper/Reducer JVM 实例之间共享。这意味着如果您在 Mapper/Reducer 类中指定了一个变量,就像您的示例 myHashMap 将可以从它自己的 JVM 中访问,例如,如果您的工作需要 10 个 Reducer,那么每个 Reducer实例将创建它自己的 HashMap

进一步说明,reduce() 方法不是并发方法,而是在单个 Reducer JVM 实例中顺序执行,因此您的 HashMap 不会被并发访问.

因此,如果您的作业需要 10 个 Reducer 实例,那么将它们放在一起,那么其中 10 个 Reducer 可以根据您的集群容量同时运行,每个 Reducer 实例都可以访问自己的变量,并且每个 Reducer 实例将迭代其要处理的键范围,然后依次为每个键和值列表调用 reduce() 方法。

希望澄清事情。

关于java - 在 Hadoop 中映射和减少类属性,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27256336/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com