gpt4 book ai didi

apache-spark - Python worker 无法在 Pyspark 或 spark 版本 2.3.1 中重新连接

转载 作者:行者123 更新时间:2023-12-05 08:16:12 24 4
gpt4 key购买 nike

安装 anaconda3 和 spark(2.3.2) 后,我正在尝试运行示例 pyspark 代码。

这只是我通过 Jupyter 运行的示例程序,我收到类似

的错误

Python worker 连接失败。

根据堆栈溢出中的以下问题:

Python worker failed to connect back

我可以看到这样的解决方案我得到了同样的错误。我解决了它安装以前版本的 Spark(2.3 而不是 2.4)。现在可以完美运行了,可能是pyspark最新版本的问题。

但是我用的spark版本是2.3.1,python版本是3.7

我仍然面临着这个问题。请帮我解决这个错误

from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("mySparkApp").getOrCreate()
testData=spark.sparkContext.parallelize([3,8,2,5])
testData.count()

回溯是:

Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.collectAndServe.
: org.apache.spark.SparkException: Job aborted due to stage failure: Task 2 in stage 1.0 failed 1 times, most recent failure: Lost task 2.0 in stage 1.0 (TID 6, localhost, executor driver): org.apache.spark.SparkException: Python worker failed to connect back.
at org.apache.spark.api.python.PythonWorkerFactory.createSimpleWorker(PythonWorkerFactory.scala:170)
at org.apache.spark.api.python.PythonWorkerFactory.create(PythonWorkerFactory.scala:97)
at org.apache.spark.SparkEnv.createPythonWorker(SparkEnv.scala:117)
at org.apache.spark.api.python.BasePythonRunner.compute(PythonRunner.scala:108)
at org.apache.spark.api.python.PythonRDD.compute(PythonRDD.scala:65)
at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:324)

最佳答案

只需将环境变量 PYSPARK_PYTHON 添加为 python。它解决了这个问题。无需升级或降级 Spark 版本。它对我有用。

enter image description here

关于apache-spark - Python worker 无法在 Pyspark 或 spark 版本 2.3.1 中重新连接,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56213955/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com