gpt4 book ai didi

hadoop - MapReduce 程序中 DistributedCache 的替代方案是什么?

转载 作者:可可西里 更新时间:2023-11-01 15:38:20 24 4
gpt4 key购买 nike

当您需要将您的 mapper/reducer 经常使用的少量数据放入 distributedCache 时,DistributedCache 似乎会派上用场。但在某些情况下,您想要放入映射器的数据会非常大,比如超过 300 MB。在这种情况下你会怎么做?在这种情况下,分布式缓存的替代方案是什么?

最佳答案

  1. 分布式缓存默认是几千兆字节,所以 300MB 不一定是问题。 (您可以在 mapred-site.xml 中调整大小。)如果您的作业经常运行并且缓存中几乎没有其他改动,那么为节点获取 300MB 仍然是值得的。

  2. 另一种选择是将您的文件放在 HDFS 上,让任务从那里读取它们。您可以使用 org.apache.hadoop.fs.FileSystem API 来执行此操作。

要选择最好的,您可能应该两种方式都尝试一下,看看哪个能给您带来更好的 I/O 和运行时间(包括对其他作业的影响)。这可能取决于您的作业运行频率、缓存中还有多少其他内容、map/reduce 比率等。

关于hadoop - MapReduce 程序中 DistributedCache 的替代方案是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21859264/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com