gpt4 book ai didi

python - 在 PyCharm IDE 中添加 Spark 包

转载 作者:行者123 更新时间:2023-12-04 18:00:36 25 4
gpt4 key购买 nike

我已根据 in this link 设置我的 PyCharm 以链接到我的本地 spark 安装

from pyspark import SparkContext, SQLContext, SparkConf
from operator import add
conf = SparkConf()
conf.setMaster("spark://localhost:7077")
conf.setAppName("Test")
sc = SparkContext(conf=conf)
sqlContext = SQLContext(sc)
df = sqlContext.createDataFrame([(2012, 8, "Batman", 9.8), (2012, 8, "Hero", 8.7), (2012, 7, "Robot", 5.5), (2011, 7, "Git", 2.0)],["year", "month", "title", "rating"])
df.write.mode('overwrite').format("com.databricks.spark.avro").save("file:///Users/abhattac/PycharmProjects/WordCount/users")

这需要将 Databrick 的 avro jar 运送到工作节点。我可以使用 shell 中的 spark-submit 完成它,如下所示:

/usr/local/Cellar/apache-spark/1.6.1/bin/pyspark AvroFile.py --packages com.databricks:spark-avro_2.10:2.0.1

当我从 PyCharm IDE 中运行它时,我找不到如何提供 --packages 选项。任何帮助将不胜感激。

最佳答案

您可以使用 Python PYSPARK_SUBMIT_ARGS 环境变量,方法是使用 PyCharm 运行配置的环境变量部分(与您设置 SPARK_HOME 的位置相同)传递它

enter image description here

或使用 os.environ直接在您的代码中,如 load external libraries inside pyspark code 所示

关于python - 在 PyCharm IDE 中添加 Spark 包,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36046758/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com