gpt4 book ai didi

apache-spark - YARN上的性能问题

转载 作者:行者123 更新时间:2023-12-04 03:12:20 25 4
gpt4 key购买 nike

我们正在尝试在 yarn 上运行我们的 Spark 簇。我们遇到了一些性能问题,尤其是与独立模式相比时。

我们有5个节点的群集,每个节点具有16GB RAM和8个核心。我们在yarn-site.xml中配置了最小容器大小为3GB,最大容器大小为14GB。将作业提交给 yarn 群集时,我们提供执行程序的数量= 10,执行程序的内存= 14 GB。据我了解,我们的工作应该分配4个14GB的容器。但是spark UI仅显示了3个7.2GB的容器。

我们无法确保容器号和分配给它的资源。与独立模式相比,这会导致性能下降。

您能谈谈如何优化 yarn 性能的任何指示吗?

这是我用于提交作业的命令:

$SPARK_HOME/bin/spark-submit --class "MyApp" --master yarn-cluster --num-executors 10 --executor-memory 14g  target/scala-2.10/my-application_2.10-1.0.jar  

在讨论之后,我更改了yarn-site.xml文件以及spark-submit命令。

这是新的yarn-site.xml代码:
<property>
<name>yarn.resourcemanager.hostname</name>
<value>hm41</value>
</property>

<property>
<name>yarn.nodemanager.resource.memory-mb</name>
<value>14336</value>
</property>

<property>
<name>yarn.scheduler.minimum-allocation-mb</name>
<value>2560</value>
</property>

<property>
<name>yarn.scheduler.maximum-allocation-mb</name>
<value>13312</value>
</property>

提交 Spark 的新命令是
$SPARK_HOME/bin/spark-submit --class "MyApp" --master yarn-cluster --num-executors 4 --executor-memory  10g --executor-cores 6   target/scala-2.10/my-application_2.10-1.0.jar 

有了这个,我可以在每台机器上获得6个内核,但是每个节点的内存使用量仍在5G左右。我已附上SPARKUI和htop的屏幕截图。

最佳答案

您在SparkUI中看到的内存(7.2GB)是spark.storage.memoryFraction,默认为0.6。至于缺少的执行者,则应查看YARN资源管理器日志。

关于apache-spark - YARN上的性能问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28343788/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com