gpt4 book ai didi

apache-spark - 长时间运行的 EMR 集群与每次出现的新集群

转载 作者:行者123 更新时间:2023-12-05 04:06:35 24 4
gpt4 key购买 nike

我有一个在 EMR 集群上定期(比如 30 分钟)运行 Spark 作业的用例。决定是每次运行都使用新集群还是使用长时间运行的集群的因素有哪些?

如果我们决定使用长期运行的集群,有哪些可能的扩展集群的策略?

最佳答案

我通常更喜欢独立的集群,因为它可以更轻松地调试并在需要时产生测试运行。但是,您可能想计算一下在这两种情况下您将花费多少。稍后向现有集群添加更多节点很容易,所以我不会为此担心。

要知道的事情:

  • 您将支付四舍五入到最近的分钟数
  • EMR 集群大约需要 10 分钟才能启动,这是您需要付费的时间

你要考虑的事情:

  • 您的作业实际运行需要多长时间。
  • 开始工作延迟 10 分钟是否可以接受?
  • 如果您的工作时间 < 20 分钟:做独立集群会更便宜
  • 如果您的工作超过 30 分钟:在持久性集群上,您接下来的半小时工作将不得不等待
  • 你想隔离你的运行吗?如果您运行单独的集群,当您读取日志进行调试时,您将不必担心过滤掉不同的作业
  • 如果您使用持久集群,您可以手动设置任何额外的依赖项,因为您只需要执行一次。在新集群上,您可能希望编写脚本。

成本将取决于您为集群选择的 EC2 实例类型以及您决定拥有的节点数量。计算估算值的一种简单方法是使用 AWS 的成本计算器:

https://calculator.s3.amazonaws.com/index.html

对于您的情况,这取决于您的 Spark 作业运行需要多长时间。您按一分钟的增量为集群付费,因此如果您的作业只需要几分钟即可运行,那么每次创建一个新集群会更便宜。另一件要记住的事情是,它通常需要大约 10 分钟或一个 EMR 集群才能启动,这是您要为此付出代价的时间,所以即使您的工作只需要 5 分钟,您也会为此付出代价

关于apache-spark - 长时间运行的 EMR 集群与每次出现的新集群,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49775156/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com