gpt4 book ai didi

java - MapReduce:如何将 HashMap 传递给映射器

转载 作者:可可西里 更新时间:2023-11-01 14:56:23 25 4
gpt4 key购买 nike

我正在设计新一代分析系统,该系统需要近乎实时地处理来自多个传感器的多个事件。为此,我想使用一种大数据分析平台,例如 HadoopSpark StreamingFlink

为了分析每个事件,我需要使用表 (DB) 中的一些元数据或至少将其加载到缓存 map 中。

问题是每个映射器将在多个节点上并行化。

所以我有两件事要处理:

  • 首先,如何将 HashMap 加载/传递给映射器?
  • 有什么方法可以使映射器之间的 HashMap 保持一致吗?

最佳答案

将 HashMap 结构序列化为文件,将其存储在 HDFS 中,并在 MapReduce 作业配置阶段使用 DistributedCache在所有映射器中使用序列化的 HashMap 传播文件。然后在 map 阶段,每个 mapper 可以读取文件,反序列化,然后访问这个 HashMap。

关于java - MapReduce:如何将 HashMap 传递给映射器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42272004/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com