gpt4 book ai didi

java - 分布式缓存和性能 Hadoop

转载 作者:可可西里 更新时间:2023-11-01 14:45:00 24 4
gpt4 key购买 nike

我想说清楚我对hadoop分布式缓存的理解。我知道当我们将文件添加到分布式缓存时,文件会加载到集群中每个节点的磁盘中。

那么文件的数据如何传输到集群中的所有节点。是通过网络吗?如果是这样,不会对网络造成压力吗?

我有以下想法,它们是否正确?

如果文件很大,网络会不会拥塞?

如果节点数量很多,即使文件大小中等或较小,复制文件并传输到所有节点,会不会造成网络拥塞和内存限制?

请帮助我理解这些概念。

谢谢!!!

最佳答案

  1. 是的,文件通过网络传输,通常是通过 HDFS。与将 HDFS 用于任何非数据本地任务相比,它不会对网络造成更多压力。

  2. 如果文件很大,可能会出现网络拥塞,但您已经将 jar 推送到所有这些任务跟踪器,所以只要您的文件不比您的 jar 大太多,你的开销应该不会太糟糕。

  3. 文件的复制完全独立于最终将拉取该文件的任务跟踪器的数量。复制也将从一个节点链接到另一个节点,并且无论如何都将成为具有容错分布式文件系统的成本。同样,假设分布式缓存中的文件与您的 jar 大小相同,网络拥塞不再是将您的 jar 推送到所有任务跟踪器的问题。

总的来说,分布式缓存的开销很小,只要按预期使用,作为一种将相当小的缓存数据推送到执行计算的任务跟踪器本地的方法。

编辑:这里是 DistributedCache 0.20 的文档。请注意,文件是通过 url 指定的。通常您会在本地 hdfs://setup 上使用一些东西。

关于java - 分布式缓存和性能 Hadoop,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13061187/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com