gpt4 book ai didi

hadoop - 基于一个元素对整个 Reducer 值列表做一些事情

转载 作者:可可西里 更新时间:2023-11-01 16:34:48 27 4
gpt4 key购买 nike

我有一个有趣的问题,我正在努力适应 MapReduce。我有一堆日志条目。我需要做的是这样的:

检查给定 IP 的任何条目是否设置了特定标志。如果是,则对具有该 IP 的所有条目应用转换,否则不转换。

最简单的方法是关闭 IP,然后在 reducer 中迭代一次值以检查是否设置了该标志,然后再次转换(如果需要)。不幸的是,我似乎只能迭代一次传递给 reducer 的 Iterable。

我看到的可能的解决方案是:

  1. 在 reducer 中,将我正在读取的值序列化到磁盘,以便稍后可以延迟反序列化以进行第二次迭代。这看起来有点像 hack。
  2. 预先运行一些作业,生成要转换的 IP 列表,并将其存储在 HBase 或其他东西中。这显然需要 HBase,以及大量的网络通信。

我想坚持使用标准 MapReduce,以便能够轻松地在 Amazon Elastic MapReduce 上运行。我觉得应该有某种方法可以通过链式工作来做到这一点,但我似乎想不出任何办法。有人对我如何做到这一点有任何提示吗?

最佳答案

一种可能性:您的映射器可以输出一个复合键,其中包括 IP 地址和此特定标志的存在。然后,您需要确保对在 reducer 中迭代的记录进行排序,以便 flag=true 的记录首先出现。由于这些记录首先出现,因此您将知道将转换应用于该 IP 地址组中的所有记录。

这是一篇描述如何执行此操作的博客文章:

http://www.riccomini.name/Topics/DistributedComputing/Hadoop/SortByValue/

关于hadoop - 基于一个元素对整个 Reducer 值列表做一些事情,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5462812/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com