gpt4 book ai didi

amazon-web-services - 配置EMR集群,选择哪个节点?

转载 作者:行者123 更新时间:2023-12-05 06:02:57 24 4
gpt4 key购买 nike

假设我从 RDS 读取数据并使用 EMR 集群 (Spark) 将其写入 S3,我应该只使用 Task 节点吗?

Example:
* 1 Master node
* 4 Task nodes

在我的例子中,我不使用 HDFS 来存储数据,因此如果我理解正确的话,就没有必要使用 Core 节点。或者我应该以任何方式至少拥有一个 Core 节点吗?有什么想法吗?

最佳答案

据我所知,您应该至少有一个核心节点。

很久以前我也有一个类似的用例,我曾使用 Spark-SQL 从 S3 读取数据并将其插入 RDS(与您的用例相反,但这无论如何都无关紧要)。

由于这项工作的性质并不繁重,所以我只使用了Master节点和Core节点。我没有使用任何Task节点,因为我觉得没有必要将它用于一份小工作。

我认为只有在使用HDFS时,才应该看Core节点的使用,这是一个小误区。我的看法是在一天结束时,即使是核心节点也是我可以运行应用程序的实例。

所以即使是核心节点也可以执行任务/工作节点的工作,我已经看到多个示例,其中核心节点是高实例类型(比如 r5.24xlarge),甚至在这个实例上你的执行者会运行。

在我上面的例子中,所有的任务都是在核心节点本身上执行的,因为我没有任何任务节点。

根据我的经验,我见过很多只有主节点和核心节点的EMR。没有看到任何只有主节点和任务节点的东西。

我想分享的一个关键点是请在核心节点中使用至少一个按需实例。您可以在核心节点中拥有一组实例(由两个按需实例组成- demand 和 spot),但强烈建议至少拥有一个按需节点。

可以在这里找到更多阅读 Material :

  1. Understand Node Types
  2. Cluster Configuration Guidelines and Best Practices

所以这个故事的寓意是:

should I have at least one Core node in any way?

是的,我认为你应该。

关于amazon-web-services - 配置EMR集群,选择哪个节点?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/66788109/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com