gpt4 book ai didi

java - 了解用于重叠计算的 mapreduce 算法

转载 作者:可可西里 更新时间:2023-11-01 14:17:29 25 4
gpt4 key购买 nike

我需要帮助来理解算法。我先贴算法解释再贴我的疑惑。

算法:(用于计算记录对之间的重叠)

给定一个用户定义的参数 K,文件 DR( *Format: record_id, data*) 被分割成 K 个大小几乎相等的 block ,这样文档的数据 Di 就落在第 i/K 个 block 中。

我们覆盖了 Hadoop 的分区功能,该功能将映射器发出的键映射到缩减器实例。每个键 (i,j) 都映射到第 j/K 组中的一个缩减器。

特殊键 i,* 及其相关值,即文档的数据最多被复制 K 次,以便文档的全部内容可以在每个 reducer 处传递。因此,组中的每个 reducer 只需要恢复和加载内存中的一个 DR 文件 block ,其大小可以通过改变 K 设置任意小。因此可以计算重叠。这是以复制通过 MapReduce 框架交付的文档为代价实现的。

疑惑:

我做了一些假设:

声明:每个键 (i,j) 都映射到第 j/K 组中的一个缩减器。假设:存在K个reduce节点,key映射到第j/K个reduce节点。

疑惑:是不是有些reduce节点组合在一起了?假设 0,1,2 个节点被分组为 Group-0?

声明:文档的数据最多被复制K次,这样文档的全部内容都可以在每个reducer处传递。

所以这意味着 K 等于 no。 reducer 节点?否则,我们就是在浪费计算节点,却没有正确使用它们?

主要疑点:K是否等于Reducer节点数??

希望得到回应!

谢谢!

最佳答案

在节点对您当前的程序变得不必要后,测试相同的程序中断。我发现通常最好在操作完成后中断操作。

但是,如果操作只知道在操作期间稍后进行处理,那么可能有必要让代码继续执行到最后。

关于java - 了解用于重叠计算的 mapreduce 算法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15319455/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com