gpt4 book ai didi

apache-spark - Spark,EMR 上主节点的大小重要吗?

转载 作者:行者123 更新时间:2023-12-04 04:44:38 25 4
gpt4 key购买 nike

在 EMR 上运行 Spark ETL 作业时,主节点实例的大小是否重要?根据我的理解,主节点不处理数据的处理/计算,负责调度任务、与核心节点和任务节点通信以及其他管理任务。

这是否意味着如果我有 10 TB 的数据需要转换然后写出,我可以将 1 个中型实例用于主节点,将 10 个 8xlarge 实例用于核心节点?

根据阅读,我看到大多数人建议主节点实例类型应该与我目前使用的核心实例类型相同并且工作正常。对于主节点,这将是 1 个 8xlarge,对于核心节点,这将是 10 个 8xlarge。

根据 AWS 文档,我们应该使用 m4.large,所以我很困惑什么是正确的。

https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-plan-instances-guidelines.html

The master node does not have large computational requirements. For most clusters of 50 or fewer nodes, consider using an m4.large instance. For clusters of more than 50 nodes, consider using an m4.xlarge.

最佳答案

提问的方式有点含糊。尺寸确实很重要,即负载等。所以我从一个稍微不同的角度回答它。 “大多数人……”的东西既不存在也不存在。

过去分配 Master 的方式是 EMR 方法的一个弱点,恕我直言,当我在大约 9 个月前为 PoC 试用它时。为 Workers 分配大量资源,默认情况下 1 分配给 Master,这完全是矫枉过正。

因此,如果您按照标准行事,您就会为主节点的非必需资源支付大于所需资源的费用。有一种方法可以为 Master 定义一个更小的资源,但我在 hols 中,无法再次找到它。

However, look at the url here and you see now that during EMR Cluster Config you can easily define a smaller Master Node or many such Master Nodes for fail over, things have moved along since I last looked: https://confusedcoders.com/data-engineering/how-to-create-emr-cluster-with-apache-spark-and-apache-zeppelin.

另见 https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-plan-ha-launch.html对于多个这样的主节点。

一般来说,主节点在特征方面可能与工作节点不同​​,通常较小,但可能并非在所有情况下都是如此。也就是说,EMR 的目的往往指向更小的主节点配置。

关于apache-spark - Spark,EMR 上主节点的大小重要吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58052765/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com