gpt4 book ai didi

Scala Spark 连接到远程集群

转载 作者:行者123 更新时间:2023-12-01 03:23:18 25 4
gpt4 key购买 nike

我希望连接到远程集群并执行 Spark 进程。
因此,根据我的阅读,这是在 SparkConf 中指定的。

 val conf = new SparkConf()
.setAppName("MyAppName")
.setMaster("spark://my_ip:7077")

其中 my_ip 是我的集群的 IP 地址。
不幸的是,我的连接被拒绝了。所以,我猜必须添加一些凭据才能正确连接。我将如何指定凭据?似乎可以用 .set(key, value) 来完成,但没有这方面的线索。

最佳答案

缺少两件事:

  • 集群管理器应该设置为 yarn (setMaster("yarn")) 和部署模式到 cluster ,
    您当前的设置用于 Spark 独立。更多信息在这里:
    http://spark.apache.org/docs/latest/configuration.html#application-properties
  • 另外,您需要获取 yarn-site.xmlcore-site.xml集群中的文件并将它们放入 HADOOP_CONF_DIR ,以便 Spark 可以获取 yarn 设置,例如您的主节点的 IP。更多信息:https://theckang.github.io/2015/12/31/remote-spark-jobs-on-yarn.html

  • 顺便说一句,如果您使用 spark-submit,这将起作用。提交作业,以编程方式实现它更复杂,只能使用 yarn-client远程设置很棘手的模式。

    关于Scala Spark 连接到远程集群,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43630494/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com