- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
所以,我是 Hadoop 的新手,我有一个关于 hadoop 如何处理 Reducer 或 Mapper 类实现的属性的问题。
据我了解,reducer 的每个实例将在不同的 JVM 中执行,因此它们之间没有共享内存。问题是,如果所有 reducer 都试图访问它,Hadoop 如何处理对在 reducer 函数外部定义的属性的并发访问。更重要的是,如果我尝试在 reducer 中实例化一个变量会发生什么。根据我对并行编程的理解,如果这种操作不是在临界区或原子变量上进行的,就会出现竞争条件。
一个简短的例子:
public class SequenceBuilderRed extends Reducer<Text, Text, Text, IntWritable>
{
private HashMap<String,myClass> myHashMap;
protected void setup(Reducer<Text,Text,Text,IntWritable>.Context context) throws IOException, Interrupted Exception
{
myHashMap=new HashMap<String,myClass>();
}
protected void reduce(Text key Iterable<Text> values, Reducer <Text,Text,Text,IntWritable>.Context context) throws IOException, InterruptedException
{
for(Text value:values)
{
if(!myHashMap.containsKey(value.toString())
{
myClass newObject = new myClass();
myHashMap.put(value.toString(),newObject);
}
}
}
}
在这种情况下,如果有不同的 reducer 具有相同的 Text 作为值,会发生什么情况?
谢谢!
最佳答案
From what I understand, each of the instances of the reducer will be executed in a different JVM, then, there is no shared memory in between them.
是的,Mapper 和 Reducer 的每个实例都将根据数据局部性在不同的 JVM 中执行,通常在不同的机器上。因此,它们基于无共享架构。
The question is, how Hadoop handle the concurrent access to an attribute defined outside the reducer function, if all the reducers are trying to access it.
Hadoop 不允许在一个 Mapper/Reducer 类中定义的属性在多个 Mapper/Reducer JVM 实例之间共享。这意味着如果您在 Mapper/Reducer 类中指定了一个变量,就像您的示例 myHashMap
将可以从它自己的 JVM 中访问,例如,如果您的工作需要 10 个 Reducer,那么每个 Reducer实例将创建它自己的 HashMap
。
进一步说明,reduce()
方法不是并发方法,而是在单个 Reducer JVM 实例中顺序执行,因此您的 HashMap
不会被并发访问.
因此,如果您的作业需要 10 个 Reducer 实例,那么将它们放在一起,那么其中 10 个 Reducer 可以根据您的集群容量同时运行,每个 Reducer 实例都可以访问自己的变量,并且每个 Reducer 实例将迭代其要处理的键范围,然后依次为每个键和值列表调用 reduce()
方法。
希望澄清事情。
关于java - 在 Hadoop 中映射和减少类属性,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27256336/
你能比较一下属性吗 我想禁用文本框“txtName”。有两种方式 使用javascript,txtName.disabled = true 使用 ASP.NET, 哪种方法更好,为什么? 最佳答案 我
Count 属性 返回一个集合或 Dictionary 对象包含的项目数。只读。 object.Count object 可以是“应用于”列表中列出的任何集合或对
CompareMode 属性 设置并返回在 Dictionary 对象中比较字符串关键字的比较模式。 object.CompareMode[ = compare] 参数
Column 属性 只读属性,返回 TextStream 文件中当前字符位置的列号。 object.Column object 通常是 TextStream 对象的名称。
AvailableSpace 属性 返回指定的驱动器或网络共享对于用户的可用空间大小。 object.AvailableSpace object 应为 Drive 
Attributes 属性 设置或返回文件或文件夹的属性。可读写或只读(与属性有关)。 object.Attributes [= newattributes] 参数 object
AtEndOfStream 属性 如果文件指针位于 TextStream 文件末,则返回 True;否则如果不为只读则返回 False。 object.A
AtEndOfLine 属性 TextStream 文件中,如果文件指针指向行末标记,就返回 True;否则如果不是只读则返回 False。 object.AtEn
RootFolder 属性 返回一个 Folder 对象,表示指定驱动器的根文件夹。只读。 object.RootFolder object 应为 Dr
Path 属性 返回指定文件、文件夹或驱动器的路径。 object.Path object 应为 File、Folder 或 Drive 对象的名称。 说明 对于驱动器,路径不包含根目录。
ParentFolder 属性 返回指定文件或文件夹的父文件夹。只读。 object.ParentFolder object 应为 File 或 Folder 对象的名称。 说明 以下代码
Name 属性 设置或返回指定的文件或文件夹的名称。可读写。 object.Name [= newname] 参数 object 必选项。应为 File 或&
Line 属性 只读属性,返回 TextStream 文件中的当前行号。 object.Line object 通常是 TextStream 对象的名称。 说明 文件刚
Key 属性 在 Dictionary 对象中设置 key。 object.Key(key) = newkey 参数 object 必选项。通常是 Dictionary 
Item 属性 设置或返回 Dictionary 对象中指定的 key 对应的 item,或返回集合中基于指定的 key 的&
IsRootFolder 属性 如果指定的文件夹是根文件夹,返回 True;否则返回 False。 object.IsRootFolder object 应为&n
IsReady 属性 如果指定的驱动器就绪,返回 True;否则返回 False。 object.IsReady object 应为 Drive&nbs
FreeSpace 属性 返回指定的驱动器或网络共享对于用户的可用空间大小。只读。 object.FreeSpace object 应为 Drive 对象的名称。
FileSystem 属性 返回指定的驱动器使用的文件系统的类型。 object.FileSystem object 应为 Drive 对象的名称。 说明 可
Files 属性 返回由指定文件夹中所有 File 对象(包括隐藏文件和系统文件)组成的 Files 集合。 object.Files object&n
我是一名优秀的程序员,十分优秀!