gpt4 book ai didi

python - 使用 Python 和 IDE 的 Spark 开发过程

转载 作者:行者123 更新时间:2023-12-04 17:43:55 25 4
gpt4 key购买 nike

什么是标准的开发过程,涉及某种用于 spark 的 IDE 和 python for

  1. 集群上的数据探索
  2. 应用程序开发?

我找到了以下答案,但并不令我满意:

a) Zeeplin/Jupiter notbooks 在“集群上”运行

二)

我很乐意使用一些本地安装的 IDE 来执行 a) 和 b),它直接与集群通信,因为我不喜欢创建本地虚拟文件并在集群上运行之前更改代码的想法。我也更喜欢 IDE 而不是笔记本。是否有执行此操作的标准方法,或者我上面的回答是否已经是“最佳实践”?

最佳答案

您应该能够将任何 IDE 与 PySpark 一起使用.以下是关于 Eclipse 的一些说明和 PyDev :

  • 设置 HADOOP_HOME 变量引用 winutils.exe 的位置
  • 设置引用本地 spark 文件夹的 SPARK_HOME 变量
  • 将 SPARK_CONF_DIR 设置为复制实际集群配置的文件夹(spark-defaults 和 log4j)
  • 添加 %SPARK_HOME%/python/lib/pyspark.zip 和%SPARK_HOME%/python/lib/py4j-xx.x.zip 到解释器的 PYTHONPATH

为了测试目的,您可以添加如下代码:

spark = SparkSession.builder.set_master("my-cluster-master-node:7077")..

在 SPARK_CONF_DIR 中使用正确的配置文件,它应该只与 SparkSession.builder.getOrCreate() 一起工作。或者,您可以将运行配置设置为直接使用 spark-submit。一些对其他 IDE 有类似说明的网站包括:

关于python - 使用 Python 和 IDE 的 Spark 开发过程,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53098685/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com