java - 在Java MapReduce中，Reducer的可迭代值似乎不一致-6ren

java - 在Java MapReduce中，Reducer的可迭代值似乎不一致

转载作者：行者123 更新时间：2023-12-02 21:04:39

24

4

我的reduce函数中有以下代码。当我尝试使用CollectionUtils.addAll创建浅拷贝时，该副本不成功。所有项目都将具有LAST项目的引用，而不是迭代器中的其他项目。

这是我的Reducer中的代码:

public void reduce(Text key, Iterable<ArrayListWritable<Writable>> values, Context context)
    throws IOException, InterruptedException {
    ArrayList<ArrayListWritable<Writable>> listOfWordPairs = new ArrayList<ArrayListWritable<Writable>>();

    // CollectionUtils.addAll(listOfWordPairs, values.iterator());
    // listOfWordPairs seems to all be the last item in the iterator

    Iterator<ArrayListWritable<Writable>> iter = values.iterator();

    // Manually do the copy
    while (iter.hasNext()) {
        // listOfWordPairs.add(iter.next()); 
        //Same behaviour as CollectionUtils.addAll()

        listOfWordPairs.add(new ArrayListWritable<Writable>(iter.next())); 
        //Only working way to do it -> deep copy :(
        }
    }

有人知道为什么会这样吗？我可以看到，如果MR以这种方式实现，则可以节省相当大的内存，但是似乎有些神奇的事情可以实现。我是MR新手，所以希望这个问题不会太愚蠢...

这是我对感兴趣的人的MAP代码

@Override
        public void map(LongWritable key, Text value, Context context)
            throws IOException, InterruptedException {
          Map<String, HMapStFW> stripes = new HashMap<>();

          List<String> tokens = Tokenizer.tokenize(value.toString());

          if (tokens.size() < 2) return;
          context.getCounter(StripesPmiEnums.TOTALENTRIES).increment(tokens.size());

          for (int i = 0; i < tokens.size() && i<40; i++) {
            for (int j = 0;j<tokens.size() && j<40;j++){
                if (j == i)
                    continue;
                //Make Stripe if doesn't exist
                if (!stripes.containsKey(tokens.get(i))){
                    HMapStFW newStripe = new HMapStFW();
                    stripes.put(tokens.get(i), newStripe);
                }

                HMapStFW stripe = stripes.get(tokens.get(i));
                if (stripe.containsKey(tokens.get(j))){
                    stripe.put(tokens.get(j), stripe.get(tokens.get(j))+1.0f);
                }else{
                    stripe.put(tokens.get(j), 1.0f);
                }
            }
          }

          for (String word1 : stripes.keySet()) {
            TEXT.set(word1);
            context.write(TEXT, stripes.get(word1));
          }
        }

ArrayListWritable也可以在这里使用
https://github.com/lintool/tools/blob/master/lintools-datatypes/src/main/java/tl/lin/data/array/ArrayListWritable.java

最佳答案

这是因为迭代器在 reducer 中的工作方式不同。简短的答案，您必须在迭代迭代器时克隆对象

while (iter.hasNext()) {
    //this is correct
    listOfWordPairs.add(new ArrayListWritable<Writable>(iter.next())); 

    }
}

看一下下面的链接，很好的解释了

https://cornercases.wordpress.com/2011/08/18/hadoop-object-reuse-pitfall-all-my-reducer-values-are-the-same/

关于java - 在Java MapReduce中，Reducer的可迭代值似乎不一致，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/42323322/

24

4

0

文章推荐： docker - 从所有kubernetes节点删除旧的Docker镜像

文章推荐： matplotlib - 在 Mayavi 体积可视化中使用感知均匀的色彩图

java - 似乎 Hibernate 超出了连接限制
谁能帮我解决这个问题？我有一个 Tomcat 和简单的 JSF 应用程序:https://github.com/gooamoko/jsfbilling/ .当我在 Tomcat 上运行应用程序时，它运
testing - 似乎 Groovy 在这两种情况下的行为不同？
我有两个这样的域类，第一个是 Manager : package com.mnm class Manager { String name; static hasMany = [ pro
c - 似乎 pthread_create 无法获得正确的参数
当我运行以下代码时，打印输出似乎不正确。 void thread_Calc(int *pos) { printf("recieved %d\n", *pos); sig = -1; man
c - 似乎 printf 使我的程序出现错误
这个问题在这里已经有了答案: How to access a local variable from a different function using pointers? (10 个答案) 关闭
c# - 似乎 ConcurrentBag 不是线程安全的
我编写了一个程序，其中列表构建器方法返回 IEnumerable of string，其中包括大量字符串(100 万个项目)，我将其存储在 List of string 中，然后它将所有项目附加到中
c - 似乎 pthread_create 正在覆盖以前的线程
我正在尝试编写一个 IRC 类型的聊天客户端，它具有可以连接到服务器的客户端。我试图让它在本地 atm 上工作(使用 FIFOS 而不是套接字)。我遇到了以下我似乎无法解决的问题: 接受新的客户端连
php - 似乎 Cron 工作在停止后仍在工作
我的一个 cronjobs 每天发送一封电子邮件 35 6 * * * cd $EZPUBLISHROOT && $PHP runcronjobs.php -q 2>&1 我停止使用 cron sud
wpf - 通过分页器保存和打印 XPSDocument(似乎)会导致内容光栅化
我使用 WPF 打印路径来处理在我们的应用程序中创建的大型图表。整个图表由视觉效果组成。所谓的“DesignerPaginator”对图表进行分页(非常简单)。从这一点来说，我做了以下三件事: -
android - 似乎 ApplicationInfo.FLAG_UPDATED_SYSTEM_APP 无法正常工作
我尝试在更新之前跟踪系统应用程序并使用: public static boolean isSystemApplication(Context ctx, IContent content) {
sql - 似乎 NOT IN 降低了 Postgresql 查询的性能
我在这里附上了一个查询分析结果，https://explain.depesz.com/s/x9BN 这是查询 EXPLAIN ANALYZE SELECT branche
tomcat - 似乎 CXF 不是每次都生成 wsdl
我正在做一个 CXF(spring) 项目 (HUB)。部署后，我可以看到肥皂和休息服务列表，我通过两个地址打开它。一种是使用本地主机，第二种是使用我电脑的 ip。所以我得到了这些输出。使用本地主机
swift - 似乎 Swfit.AnyHashable 不适合使用枚举 (as!, as?, as)
这是一个 AnyHashable 不支持枚举转换的简单案例。 enum testEnum: String { case Test } let myObject: AnyHashable = t
c# - 为什么列表比较失败，如果列表(似乎)相同
我的主要目标是比较存储在数据库和 XLSX 文件中的数据。为此，我按以下方式创建了两个列表: private class ProductList { public string produc
c++ - 更新 CMake(似乎)破坏了我的程序
我从 CMake 3.6 更新到任何最新版本 (3.12.0-rc2)，现在我的一个程序无法编译。奇怪的是，错误消息显示了标准库本身中的 undefined symbol 。这是错误消息: Unde
android - 似乎 windowAnimationStyle 被忽略了，如何为自定义对话框设置动画？
我希望将我的自定义对话框动画化为从特定点出现，但我无法为对话框设置动画。该对话框是一个基本的 RelativeLayout，设置为 extends Dialog 类中的布局。正如这里的一些答案所建
php - 即使具有(似乎)正确的文件权限，上传目标文件夹似乎也不可写
我已经在这个论坛上调查过很多类似的问题，但似乎没有一个能解决我的问题。我会在底部列出我在这个论坛上看到的一些问题页面，但让我先谈谈我对这个问题的看法。我正在使用 codeigniter v 2.x
docker-compose - systemd:似乎 ExecStop 脚本在启动命令运行后立即执行
我正在尝试在 RHEL 7 上启动一个 docker-compose 项目作为 systemd 服务。这是我的 systemd 脚本 (/etc/systemd/system/wp.service):
java - 似乎

这个问题已经有答案了: "Notice: Undefined variable", "Notice: Undefined index", "Warning: Undefined array key",

docker-compose - systemd:似乎 ExecStop 脚本在启动命令运行后立即执行
我正在尝试在 RHEL 7 上启动一个 docker-compose 项目作为 systemd 服务。这是我的 systemd 脚本 (/etc/systemd/system/wp.service):
java - 似乎 JPanel 背景未在 FocusListener 中读取
此问题出现在my last question here之后。我想将每个按钮聚焦和失去焦点背景设置为主菜单(ContentPane 即 JPanel)下方的背景颜色，因此按钮看起来像选项卡。它在不同的环

首页

博学

6Ren·AI

商城

java - 在Java MapReduce中，Reducer的可迭代值似乎不一致