gpt4 book ai didi

apache-spark - 从笔记本电脑提交 spark 应用程序

转载 作者:行者123 更新时间:2023-12-04 18:02:11 24 4
gpt4 key购买 nike

我想从我的笔记本电脑提交 spark python 应用程序。我有一个独立的 spark 集群,master 在一些可见的 IP (MASTER_IP) 上运行。在我的笔记本电脑上下载并解压缩 Spark 后,我让它工作了

./bin/spark-submit  --master  spark://MASTER_IP:7077   ~/PATHTO/pi.py

据我了解,它默认为客户端模式(相对于集群模式)。根据 Spark ( http://spark.apache.org/docs/latest/submitting-applications.html ) -“只有 YARN 支持 Python 应用程序的集群模式。”由于我没有使用 YARN,所以我必须使用客户端模式。

我的问题是 - 我需要在笔记本电脑上下载所有 Spark 吗?或者只是几个图书馆?

我想让团队的其他成员使用我的 Spark 集群,但我希望他们做的工作量尽可能少。他们不需要设置集群。他们只需要向它提交工作。让他们下载所有 Spark 似乎有点矫枉过正。

那么,他们需要的最低限度到底是多少?

最佳答案

我这里的 spark-1.5.0-bin-hadoop2.6 包解压后有 304MB。超过一半,即 175MB 由 spark-assembly-1.5.0-hadoop2.6.0.jar 组成,这是 Spark 的主要内容。除非你想编译你自己的包,否则你无法摆脱它。剩下的很大一部分是spark-examples-1.5.0-hadoop2.6.0.jar,113MB。移除它并重新拉上 zipper 是无害的,并且已经为您节省了很多。

然而,使用一些工具使得他们不必直接使用 spark 包,比如 spark-jobserver(从未使用过但从未听说过有人对当前状态非常积极)或 spark-kernel(仍然需要您自己的代码才能与之交互,或者当与 notebook 一起使用时(见下文)与替代方案相比有限),正如 Reactormonk 所建议的那样,这对他们来说更加容易。

从这个意义上讲,一种流行的做法是设置对笔记本的访问权限。当您使用 Python 时,IPython with a PySpark profile将是最直接的设置。其他选择是 Zeppelinspark-notebook (我最喜欢的)使用 Scala。

关于apache-spark - 从笔记本电脑提交 spark 应用程序,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33291177/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com