gpt4 book ai didi

python - 从 Spark 1.0 开始,不推荐通过 'pyspark' 运行 python 应用程序

转载 作者:行者123 更新时间:2023-11-28 16:25:37 25 4
gpt4 key购买 nike

基本上,我有如下 pyspark 脚本(在 spark_example.py 中说):

import os
from pyspark import SparkConf, SparkContext

conf = SparkConf().setAppName('example_app').setMaster('local[8]')
sc = SparkContext(conf=conf)

if __name__ == '__main__':
ls = range(100)
ls_rdd = sc.parallelize(ls, numSlices=100)
ls_out = ls_rdd.map(lambda x: x+1).collect()
print('output!: ', ls_out)

配置如下

export SPARK_HOME=~/spark-1.6.0-bin-hadoop2.6
export export PYSPARK_PYTHON=~/anaconda3/bin/python
export PYSPARK_DRIVER_PYTHON=~/anaconda3/bin/ipython

我可以运行以下脚本 ~/spark-1.6.0-bin-hadoop2.6/bin/pyspark spark_example.py我收到如下警告

WARNING: Running python applications through 'pyspark' is deprecated as of Spark 1.0.

我想知道如何为 Spark 正确运行 python 脚本(即不使用 import pyspark)。

最佳答案

从 Spark 1.0 开始,您应该使用 spark-submit 启动 pyspark 应用程序。

pyspark 将启动交互式 shell,spark-submit 允许您在各种集群管理器上轻松启动 spark 作业。

我建议您阅读 spark 文档。

关于python - 从 Spark 1.0 开始,不推荐通过 'pyspark' 运行 python 应用程序,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37082853/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com