gpt4 book ai didi

performance - 估计伪分布式节点上的 Hadoop 可扩展性性能?

转载 作者:可可西里 更新时间:2023-11-01 16:20:16 25 4
gpt4 key购买 nike

是否有任何工具、包或方法可用于仅使用使用伪分布式架构的单台机器来估计/模拟 Hadoop 的可扩展性性能?这样的系统需要根据在模拟中相互不干扰的作业(例如,阻塞的 I/O)做出准确的估计。

在我看来,这是如何工作的,我会按顺序运行我所有的 map/reduce 作业,并使用一些指标来估计系统的扩展程度(例如,采用运行时间最长的 map 作业并估计运行时间将成为瓶颈)。

此外,我有多个 map/reduce 作业,它们被链接在一起以形成输出。

最佳答案

我认为这在很大程度上取决于您的工作性质。让我们试着举几个例子:
1. 你的工作有大量的输入格式和映射器处理,传递给 reducer 的数据很少。在这种情况下,我估计伪分布式集群将实际反射(reflect)真实的集群性能(每个插槽),您可以假设 5 节点集群将具有大约 x5 的性能。我建议放置足够的数据,使工作时间至少是工作启动时间的 5-10 倍。如果您有足够的拆分以确保处理期间的数据局部性,则此估计会更好。
如果您计划拥有许多相对较小的文件 - 在您的测试中放置足够的文件,以模拟每个任务的开销。2. 您严重依赖 Hadoop 分布式排序功能(洗牌)。它在一个节点和真实集群中的性能可能有很大的不同,而且这个因素很难估计。
我可以总结 mapper 的吞吐量,在某种程度上,reducer 的吞吐量可以从上面估计的每槽 MB/秒来表示。真正的集群可能不会有每个插槽更好的性能。

关于performance - 估计伪分布式节点上的 Hadoop 可扩展性性能?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9263817/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com