gpt4 book ai didi

performance - Hadoop 等开源计算平台的效率如何?

转载 作者:可可西里 更新时间:2023-11-01 15:01:44 24 4
gpt4 key购买 nike

Hadoop 等开源分布式计算框架的效率如何?我所说的效率是指可用于大多数纯计算任务中的“实际工作”的 CPU 周期。换句话说,有多少 CPU 周期用于开销,或因未使用而浪费?我不是在寻找具体数字,只是一个粗略的图片。例如。我可以期望使用集群 90% 的 CPU 能力吗? 99%? 99.9%?

更具体地说,假设我想计算 PI,并且我有一个算法 X。当我在一个紧密循环的单核上执行此操作时,假设我获得了一些性能 Y。如果我在使用例如分布式方式Hadoop,我期望性能下降多少?

我知道这取决于很多因素,但粗略的幅度是多少?如果重要的话,我正在考虑一个可能有 10 - 100 个服务器(总共 80 - 800 个 CPU 内核)的集群。

谢谢!

最佳答案

从技术上讲,hadoop 在几个方面有相当大的开销:
a) 每个任务的开销估计为 1 到 3 秒。
b) HDFS 数据读取开销,由于通过套接字传递数据和 CRC 计算。更难估计
如果您有很多小任务,和/或如果您的数据处理很轻,这些开销可能会非常大。
同时,如果您有大文件(较少任务)并且您的数据处理很繁重(比如每个内核几 mb/秒),那么 Hadoop 开销可以忽略不计。
归根结底 - Hadoop 开销是可变的,这在很大程度上取决于您正在进行的处理的性质。

关于performance - Hadoop 等开源计算平台的效率如何?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6838797/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com