gpt4 book ai didi

hadoop - Elastic MapReduce (EMR) 的扩展?

转载 作者:可可西里 更新时间:2023-11-01 15:17:36 27 4
gpt4 key购买 nike

我正在评估 EC2/EMR用于运行约 20 个节点的 Hadoop 集群。 (custom JAR 集群)。我已经在单节点 3.3 GHz 2GB RAM 本地 VMWare 实例上运行了简单的 WordCount 示例,该实例只需不到 10 秒即可完成。 WordCount 示例需要 3 分钟才能在 EMR 上完成 2 c1.mediumm实例(不包括 3-5 分钟的启动时间)。 2 个 m1.small 实例花费相同的时间。在 EMR 上运行作业会有一些开销,也许这个问题规模太小,所以这似乎可以理解。

大约在什么规模的问题上,您开始看到云的性能优势?或者大约有多少个节点或计算单元?

最佳答案

如果您正在启动一项 EMR 作业,这实际上意味着您要求 Amazon 为您提供一个由 N 台机器组成的按需集群,而配置和提供这些机器这一简单事实很容易花费几分钟时间,更不用说这些机器需要设置,可以有引导操作,等等。我很少看到 EMR 作业(即使是大型作业)需要超过 10 分钟才能让集群准备就绪,但我也很少看到集群在不到几分钟的时间内启动。

如果您有一项经常运行的工作(例如每小时运行一次),那么设置和关闭 EMR 集群的成本可能太大,在这种情况下,最好创建您的与 EC2 上的一些保留实例集群。使用预留实例,您将始终拥有自己的集群并由您管理,因此设置/关闭集群不会浪费时间,这就像常规 Hadoop 集群一样。

过去几年我一直在做的是在保留实例上使用 EC2 集群,该集群始终处于运行状态并且所有作业都在其上运行,但对于一些非常大且无法容纳的作业我的集群,我在 EMR 上运行它们,在那里我可以选择我想要的节点数量,并且由于这些是大型作业,因此与总运行时间相比,设置/关闭集群的时间很小。我不建议将 EMR 用于小型/频繁的工作。

关于hadoop - Elastic MapReduce (EMR) 的扩展?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16891884/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com