- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
所以,我是 Hadoop 的新手,我有一个关于 hadoop 如何处理 Reducer 或 Mapper 类实现的属性的问题。
据我了解,reducer 的每个实例将在不同的 JVM 中执行,因此它们之间没有共享内存。问题是,如果所有 reducer 都试图访问它,Hadoop 如何处理对在 reducer 函数外部定义的属性的并发访问。更重要的是,如果我尝试在 reducer 中实例化一个变量会发生什么。根据我对并行编程的理解,如果这种操作不是在临界区或原子变量上进行的,就会出现竞争条件。
一个简短的例子:
public class SequenceBuilderRed extends Reducer<Text, Text, Text, IntWritable>
{
private HashMap<String,myClass> myHashMap;
protected void setup(Reducer<Text,Text,Text,IntWritable>.Context context) throws IOException, Interrupted Exception
{
myHashMap=new HashMap<String,myClass>();
}
protected void reduce(Text key Iterable<Text> values, Reducer <Text,Text,Text,IntWritable>.Context context) throws IOException, InterruptedException
{
for(Text value:values)
{
if(!myHashMap.containsKey(value.toString())
{
myClass newObject = new myClass();
myHashMap.put(value.toString(),newObject);
}
}
}
}
在这种情况下,如果有不同的 reducer 具有相同的 Text 作为值,会发生什么情况?
谢谢!
最佳答案
From what I understand, each of the instances of the reducer will be executed in a different JVM, then, there is no shared memory in between them.
是的,Mapper 和 Reducer 的每个实例都将根据数据局部性在不同的 JVM 中执行,通常在不同的机器上。因此,它们基于无共享架构。
The question is, how Hadoop handle the concurrent access to an attribute defined outside the reducer function, if all the reducers are trying to access it.
Hadoop 不允许在一个 Mapper/Reducer 类中定义的属性在多个 Mapper/Reducer JVM 实例之间共享。这意味着如果您在 Mapper/Reducer 类中指定了一个变量,就像您的示例 myHashMap
将可以从它自己的 JVM 中访问,例如,如果您的工作需要 10 个 Reducer,那么每个 Reducer实例将创建它自己的 HashMap
。
进一步说明,reduce()
方法不是并发方法,而是在单个 Reducer JVM 实例中顺序执行,因此您的 HashMap
不会被并发访问.
因此,如果您的作业需要 10 个 Reducer 实例,那么将它们放在一起,那么其中 10 个 Reducer 可以根据您的集群容量同时运行,每个 Reducer 实例都可以访问自己的变量,并且每个 Reducer 实例将迭代其要处理的键范围,然后依次为每个键和值列表调用 reduce()
方法。
希望澄清事情。
关于java - 在 Hadoop 中映射和减少类属性,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27256336/
我是 Bison 解析的新手,我无法理解它是如何工作的。我有以下语法,其中我保留了最低限度的语法来突出问题。 %left '~' %left '+' %token T_VARIABLE %% star
我链接了 2 个映射器和 1 个缩减器。是否可以将中间输出(链中每个映射器的 o/p)写入 HDFS?我尝试为每个设置 OutputPath,但它似乎不起作用。现在,我不确定是否可以完成。有什么建议吗
我正在编写一些代码来管理自定义磁盘文件结构并将其同步到未连接的系统。我的要求之一是能够在实际生成同步内容之前估计同步的大小。作为一个简单的解决方案,我整理了一个包含完整路径文件名的 map ,作为高效
我来自一个 SQL 世界,其中查找由多个对象属性(published = TRUE 或 user_id = X)完成,并且有 任何地方都没有加入 (因为 1:1 缓存层)。文档数据库似乎很适合我的数据
在 R 中,我有一个整数向量。从这个向量中,我想随机减少每个整数元素的值,以获得向量的总和,即初始总和的百分比。 在这个例子中,我想将向量“x”减少到向量“y”,其中每个元素都被随机减少以获得等于初始
我发现自己遇到过几次我有一个 reducer /组合 fn 的情况,如下所示: def combiner(a: String, b: String): Either[String, String]
Ubuntu 12.04 nginx 1.2.4 avconv版本 avconv version 0.8.10-4:0.8.10-0ubuntu0.12.04.1, Copyright (c) 200
我是 R 编程语言的新手。我有一个包含 2 列(ID 和 Num)的数据集,如下所示: ID Num 3 8 3 12 4 15 4 18 4
我正在使用高阶函数将函数应用于向量中的每个元素并将结果作为标量值返回。 假设我有: v = c(0, 1, 2, 3, 4, 5, 6, 7, 8) 我想计算以左边 5 个整数为中心的所有这些整数的总
关闭。这个问题需要debugging details .它目前不接受答案。 编辑问题以包含 desired behavior, a specific problem or error, and th
这个问题在这里已经有了答案: How to write the dataframes in a list to a single csv file (2 个回答) 5年前关闭。 我正在尝试使用 Red
刚开始学习CUDA编程,对归约有些迷茫。 我知道与共享内存相比,全局内存有很多访问延迟,但我可以使用全局内存来(至少)模拟类似于共享内存的行为吗? 例如,我想对长度恰好为 BLOCK_SIZE * T
我经常使用OptiPNG或pngcrush减小PNG图像的文件大小。 我希望能够从.NET应用程序中以编程方式执行此类操作。我正在动态生成要发送到移动设备的PNG,因此我想减小文件大小。 图像质量很重
减少和减少让您在序列上累积状态。 序列中的每个元素都会修改累积的状态,直到 到达序列的末尾。 在无限列表上调用reduce 或reductions 有什么含义? (def c (cycle [0]))
这与R: use the newly generated data in the previous row有关 我意识到我面临的实际问题比我在上面的线程中给出的示例要复杂一些 - 似乎我必须将 3 个
有什么办法可以减少.ttf字体的大小?即如果我们要删除一些我们不使用的glyps。 最佳答案 使用Google Web Fonts,您可以限制字符集,例如: //fonts.googleapis.co
我需要在iOS中制作一个应用程序,在她的工作过程中发出类似“哔”的声音。 我已经使用MPMusicPlayerController实现了与背景ipod的交互。 问题: 由于来自ipod的音乐音量很大,
我有一个嵌套 map m,如下所示: m = Map("电子邮件"-> "a@b.com", "背景"-> Map("语言"-> "英语")) 我有一个数组arr = Array("backgroun
有什么原因为什么不应该转发map / reduce函数中收到的可写内容? 我的意思是-每个map / reduce函数都有一个可写的键/值,并可能发出一个键/值对。如果我想执行一些过滤,我应该只发出接
假设我有一个数据列表 val data = listOf("F 1", "D 2", "U 1", "D 3", "F 10") 我想执行每个元素的给定逻辑。 我必须在外部添加 var acc2 =
我是一名优秀的程序员,十分优秀!