gpt4 book ai didi

hadoop - 在集群模式下使用DistributedCached

转载 作者:行者123 更新时间:2023-12-02 21:22:43 25 4
gpt4 key购买 nike

我有一个对象:

class Cache {
Map<K,V> map;
}

我使用DistributedCache指定一个包含此对象的URI,然后在每个映射任务的setup()函数中加载了该Cache对象进行处理,尤其是使用Cache对象在每个映射任务中存储了一些值。

我的问题是,当我们在集群模式下运行hadoop时,每个数据节点中 map 的内容会有所不同。这样对吗?因为当我在本地模式下开发时, map 的内容包含整个数据集的结果。

最佳答案

DN上保存的数据将具有相同的格式,并且映射器将处理相同格式的文件。在驱动程序代码中,您必须定义输入和格式类型。在这种情况下,上下文将是相同的。如果映射任务将在任意数量的DN上运行,则映射上下文将是相同的。

现在,在分布式缓存中,您将使用DistributedCache API添加文件。在设置方法中,您将在Path对象的数组中检查要处理的文件。

关于hadoop - 在集群模式下使用DistributedCached,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36882053/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com