gpt4 book ai didi

apache-spark - 如何查找现有 Spark 集群的主 URL

转载 作者:行者123 更新时间:2023-12-03 07:27:06 25 4
gpt4 key购买 nike

目前我正在运行我的程序

val conf = new SparkConf()
.setAppName("Test Data Analysis")
.setMaster("local[*]")
.set("spark.executor.memory", "32g")
.set("spark.driver.memory", "32g")
.set("spark.driver.maxResultSize", "4g")

即使我在 5 台机器的集群上运行(每台机器都有 376 GB 物理 RAM)。我的程序出现 java.lang.OutOfMemoryError: Java heap space

错误

我的数据量很大...但没有大到超过 32 GB 执行程序内存 * 5 个节点。

我怀疑这可能是因为我使用“本地”作为我的主人。我看过文档说使用 spark://machinename:7070

但是我想知道我的集群...如何确定此 URL 和端口

编辑:我可以看到文档讨论了运行名为“spark-master.sh”的东西以使节点成为主节点。

在我的例子中,spark 集群是由其他人设置/维护的,因此我不想通过启动自己的 master 来更改拓扑。

如何查询并找出哪个节点是现有的主节点。

我已经尝试在集群中选取一个随机节点,然后尝试“spark://node:7077”,但这不起作用并给出错误

[15/11/03 20:06:21 WARN AppClient$ClientActor: Could not connect to
akka.tcp://sparkMaster@node:7077:
akka.remote.EndpointAssociationException: Association failed with
[akka.tcp://sparkMaster@node:7077]

最佳答案

我发现执行 --master yarn-cluster 效果最好。这可以确保 Spark 使用 hadoop 集群的所有节点。

关于apache-spark - 如何查找现有 Spark 集群的主 URL,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33504798/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com