java - 在 Hadoop 中映射和减少类属性-6ren

java - 在 Hadoop 中映射和减少类属性

转载作者：可可西里更新时间：2023-11-01 16:58:19

25

4

所以，我是 Hadoop 的新手，我有一个关于 hadoop 如何处理 Reducer 或 Mapper 类实现的属性的问题。

据我了解，reducer 的每个实例将在不同的 JVM 中执行，因此它们之间没有共享内存。问题是，如果所有 reducer 都试图访问它，Hadoop 如何处理对在 reducer 函数外部定义的属性的并发访问。更重要的是，如果我尝试在 reducer 中实例化一个变量会发生什么。根据我对并行编程的理解，如果这种操作不是在临界区或原子变量上进行的，就会出现竞争条件。

一个简短的例子:

public class SequenceBuilderRed extends Reducer<Text, Text, Text, IntWritable> 
{
    private HashMap<String,myClass> myHashMap;
    protected void setup(Reducer<Text,Text,Text,IntWritable>.Context context) throws IOException, Interrupted Exception
    {
         myHashMap=new HashMap<String,myClass>();
    }

    protected void reduce(Text key Iterable<Text> values, Reducer <Text,Text,Text,IntWritable>.Context context) throws IOException, InterruptedException 
    {
       for(Text value:values)
       {
          if(!myHashMap.containsKey(value.toString())
          {
              myClass newObject = new myClass();
              myHashMap.put(value.toString(),newObject);
          }
       }
     }
}

在这种情况下，如果有不同的 reducer 具有相同的 Text 作为值，会发生什么情况？

谢谢!

最佳答案

From what I understand, each of the instances of the reducer will be executed in a different JVM, then, there is no shared memory in between them.

是的，Mapper 和 Reducer 的每个实例都将根据数据局部性在不同的 JVM 中执行，通常在不同的机器上。因此，它们基于无共享架构。

The question is, how Hadoop handle the concurrent access to an attribute defined outside the reducer function, if all the reducers are trying to access it.

Hadoop 不允许在一个 Mapper/Reducer 类中定义的属性在多个 Mapper/Reducer JVM 实例之间共享。这意味着如果您在 Mapper/Reducer 类中指定了一个变量，就像您的示例 myHashMap 将可以从它自己的 JVM 中访问，例如，如果您的工作需要 10 个 Reducer，那么每个 Reducer实例将创建它自己的 HashMap。

进一步说明，reduce() 方法不是并发方法，而是在单个 Reducer JVM 实例中顺序执行，因此您的 HashMap 不会被并发访问.

因此，如果您的作业需要 10 个 Reducer 实例，那么将它们放在一起，那么其中 10 个 Reducer 可以根据您的集群容量同时运行，每个 Reducer 实例都可以访问自己的变量，并且每个 Reducer 实例将迭代其要处理的键范围，然后依次为每个键和值列表调用 reduce() 方法。

希望澄清事情。

关于java - 在 Hadoop 中映射和减少类属性，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/27256336/

25

4

0

文章推荐： hadoop - 如何在hadoop pig中执行-fs

文章推荐： http - 在 HTTP 和 HTTPS 中运行自动 Selenium 测试的好模式？

Bison 减少/减少
我是 Bison 解析的新手，我无法理解它是如何工作的。我有以下语法，其中我保留了最低限度的语法来突出问题。 %left '~' %left '+' %token T_VARIABLE %% star
hadoop链映射/减少
我链接了 2 个映射器和 1 个缩减器。是否可以将中间输出(链中每个映射器的 o/p)写入 HDFS？我尝试为每个设置 OutputPath，但它似乎不起作用。现在，我不确定是否可以完成。有什么建议吗
boost - 路径简化/减少
我正在编写一些代码来管理自定义磁盘文件结构并将其同步到未连接的系统。我的要求之一是能够在实际生成同步内容之前估计同步的大小。作为一个简单的解决方案，我整理了一个包含完整路径文件名的 map ，作为高效
CouchDB 在运行时通过任何文档属性映射/减少？
我来自一个 SQL 世界，其中查找由多个对象属性(published = TRUE 或 user_id = X)完成，并且有任何地方都没有加入 (因为 1:1 缓存层)。文档数据库似乎很适合我的数据
减少 R 中向量元素的总和
在 R 中，我有一个整数向量。从这个向量中，我想随机减少每个整数元素的值，以获得向量的总和，即初始总和的百分比。在这个例子中，我想将向量“x”减少到向量“y”，其中每个元素都被随机减少以获得等于初始
scala - 减少/折叠幺半群列表但减少器返回任一
我发现自己遇到过几次我有一个 reducer /组合 fn 的情况，如下所示: def combiner(a: String, b: String): Either[String, String]
nginx - 减少+30秒的HLS延迟
Ubuntu 12.04 nginx 1.2.4 avconv版本 avconv version 0.8.10-4:0.8.10-0ubuntu0.12.04.1, Copyright (c) 200
减少 R 中的行数
我是 R 编程语言的新手。我有一个包含 2 列(ID 和 Num)的数据集，如下所示: ID Num 3 8 3 12 4 15 4 18 4
减少 R 中的左折叠
我正在使用高阶函数将函数应用于向量中的每个元素并将结果作为标量值返回。假设我有: v = c(0, 1, 2, 3, 4, 5, 6, 7, 8) 我想计算以左边 5 个整数为中心的所有这些整数的总
减少 lapply 返回的元素数量
关闭。这个问题需要debugging details .它目前不接受答案。编辑问题以包含 desired behavior, a specific problem or error, and th
减少 R 中函数的额外参数
这个问题在这里已经有了答案: How to write the dataframes in a list to a single csv file (2 个回答) 5年前关闭。我正在尝试使用 Red
cuda - 减少 CUDA
刚开始学习CUDA编程，对归约有些迷茫。我知道与共享内存相比，全局内存有很多访问延迟，但我可以使用全局内存来(至少)模拟类似于共享内存的行为吗？例如，我想对长度恰好为 BLOCK_SIZE * T
.net - 减少.NET中的PNG文件大小
我经常使用OptiPNG或pngcrush减小PNG图像的文件大小。我希望能够从.NET应用程序中以编程方式执行此类操作。我正在动态生成要发送到移动设备的PNG，因此我想减小文件大小。图像质量很重
Clojure:减少，减少和无限列表
减少和减少让您在序列上累积状态。序列中的每个元素都会修改累积的状态，直到到达序列的末尾。在无限列表上调用reduce 或reductions 有什么含义？ (def c (cycle [0]))
R:传递多个参数来累加/减少
这与R: use the newly generated data in the previous row有关我意识到我面临的实际问题比我在上面的线程中给出的示例要复杂一些 - 似乎我必须将 3 个
fonts - 减少.ttf字体大小的方法？
有什么办法可以减少.ttf字体的大小？即如果我们要删除一些我们不使用的glyps。最佳答案使用Google Web Fonts，您可以限制字符集，例如: //fonts.googleapis.co
ios - 减少/减少我的应用程序中的背景ipod声音
我需要在iOS中制作一个应用程序，在她的工作过程中发出类似“哔”的声音。我已经使用MPMusicPlayerController实现了与背景ipod的交互。问题: 由于来自ipod的音乐音量很大，
Scala - 减少/向左折叠
我有一个嵌套 map m，如下所示: m = Map("电子邮件"-> "a@b.com", "背景"-> Map("语言"-> "英语")) 我有一个数组arr = Array("backgroun
hadoop - 转发可写的映射/减少
有什么原因为什么不应该转发map / reduce函数中收到的可写内容？我的意思是-每个map / reduce函数都有一个可写的键/值，并可能发出一个键/值对。如果我想执行一些过滤，我应该只发出接
kotlin - 减少/折叠中的两个累加器
假设我有一个数据列表 val data = listOf("F 1", "D 2", "U 1", "D 3", "F 10") 我想执行每个元素的给定逻辑。我必须在外部添加 var acc2 =

首页

博学

6Ren·AI

商城

java - 在 Hadoop 中映射和减少类属性