gpt4 book ai didi

apache-spark - 了解 Spark 应用程序如何使用依赖项

转载 作者:行者123 更新时间:2023-12-02 20:15:10 25 4
gpt4 key购买 nike

假设我们有一个向 HDFS 写入/读取/读取的 spark 应用程序,并且我们有一些额外的依赖关系,我们称之为 dep。 .
现在,让我们做spark-submit在我们用 sbt 构建的 jar 上.我知道spark-submit发送一些 jar (称为 spark-libs )。但是,我的问题是:
(1) spark的版本对发送的依赖有什么影响?我的意思是 spark-with-hadoop/bin/spark-submit 之间的区别和 spark-without-hadopo/bin/spark-submit ?
(2)安装在集群(hadoop集群)上的hadoop版本对依赖有什么影响?
(3) 谁负责提供我的依赖 dep ?我应该建立 fat-jar (assembly) 吗?
请注意,第一个问题都是关于 HDFS 调用的来源(我的意思是我的 spark 应用程序完成的调用,如写/读)。
提前致谢

最佳答案

spark-without-hadoop仅指下载的包,不指应用开发。
更正确的措辞是“自带 Hadoop”,这意味着您仍然需要为任何 Spark 应用程序拥有基本的 Hadoop 依赖项。

Should I build fat-jar (assembly) ?


如果你有 hadoop-client 之外的库和 Spark 提供的库(core、mllib、streaming),那么是的

关于apache-spark - 了解 Spark 应用程序如何使用依赖项,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/64360130/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com