python - Spark 异常 : Python in worker has different version 3. 4 比驱动程序 3.5-6ren

python - Spark 异常 : Python in worker has different version 3. 4 比驱动程序 3.5

转载作者：太空宇宙更新时间：2023-11-04 08:47:28

25

4

我使用的是 Amazon EC2，我的主服务器和开发服务器合二为一。我还有另一个针对单个 worker 的实例。

我是新手，但我已经设法让 spark 在独立模式下工作。现在我正在尝试集群。 master 和 worker 处于事件状态(我可以看到它们的 webUI，并且它们正在运行)。

我有 Spark 2.0，我已经安装了最新的 Anaconda 4.1.1，它随 Python 3.5.2 一起提供。在 worker 和 master 中，如果我转到 pyspark 并执行 os.version_info，我将获得 3.5.2，我还正确设置了所有环境变量(如 stackoverflow 和 google 上的其他帖子所示)(例如，PYSPARK_PYTHON) .

无论如何都没有 3.4 版本的 python。所以我想知道如何解决这个问题。

我通过运行此命令得到错误:

rdd = sc.parallelize([1,2,3])
rdd.count()

count() 方法发生错误:

16/08/13 18:44:31 ERROR Executor: Exception in task 1.0 in stage 2.0 (TID 17)
org.apache.spark.api.python.PythonException: Traceback (most recent call last):
  File "/opt/spark/python/lib/pyspark.zip/pyspark/worker.py", line 123, in main
    ("%d.%d" % sys.version_info[:2], version))
Exception: Python in worker has different version 3.4 than that in driver 3.5, PySpark cannot run with different minor versions

at org.apache.spark.api.python.PythonRunner$$anon$1.read(PythonRDD.scala:193)
at org.apache.spark.api.python.PythonRunner$$anon$1.<init>(PythonRDD.scala:234)
at org.apache.spark.api.python.PythonRunner.compute(PythonRDD.scala:152)
at org.apache.spark.api.python.PythonRDD.compute(PythonRDD.scala:63)
at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:319)
at org.apache.spark.rdd.RDD.iterator(RDD.scala:283)
at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:70)
at org.apache.spark.scheduler.Task.run(Task.scala:85)
at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:274)
at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)
at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)
at java.lang.Thread.run(Thread.java:745)
16/08/13 18:44:31 ERROR Executor: Exception in task 1.1 in stage 2.0 (TID 18)
org.apache.spark.api.python.PythonException: Traceback (most recent call last):
  File "/opt/spark/python/lib/pyspark.zip/pyspark/worker.py", line 123, in main
    ("%d.%d" % sys.version_info[:2], version))
Exception: Python in worker has different version 3.4 than that in driver 3.5, PySpark cannot run with different minor versions
at org.apache.spark.api.python.PythonRunner$$anon$1.read(PythonRDD.scala:193)
at org.apache.spark.api.python.PythonRunner$$anon$1.<init>(PythonRDD.scala:234)
at org.apache.spark.api.python.PythonRunner.compute(PythonRDD.scala:152)
at org.apache.spark.api.python.PythonRDD.compute(PythonRDD.scala:63)
at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:319)
at org.apache.spark.rdd.RDD.iterator(RDD.scala:283)
at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:70)
at org.apache.spark.scheduler.Task.run(Task.scala:85)
at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:274)
at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)
at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)
at java.lang.Thread.run(Thread.java:745)

最佳答案

因为您已经在使用 Anaconda，您可以简单地创建一个具有所需 Python 版本的环境:

conda create --name foo python=3.4
source activate foo

python --version
## Python 3.4.5 :: Continuum Analytics, Inc

并将其用作 PYSPARK_DRIVER_PYTHON:

export PYSPARK_DRIVER_PYTHON=/path/to/anaconda/envs/foo/bin/python

关于python - Spark 异常 : Python in worker has different version 3. 4 比驱动程序 3.5，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/38936150/

25

4

0

文章推荐： python - 无法导入名称 DurationField

文章推荐： c - 如何在 Linux 中设置文件时间戳？

文章推荐： c - ANSI C89 的补零

文章推荐： python - Pandas 按条件按列值排名

service-worker - 在一个域中推荐一个顶级 Service Worker 或多个 Service Worker？
如果一个域有多个团队和多个 Web 应用程序，那么注册 Service Worker 来管理整个站点的最佳建议是什么？具有范围的顶级服务 worker /或子域中的多个服务 worker ？由于一个域
service-worker - 用于网络流量分析的服务 worker
我开发了一个应用程序来分析播放 YouTube 视频时的网络流量。它使用 chrome.webRequest，我使用 onHeadersReceived 事件计算流量。我想使用 service wo
service-worker - 如何将更新部署到在客户站点上运行的服务 worker ？
假设我提供了不同网站使用的推送通知服务。此服务需要在我的客户站点上安装服务 worker 。我希望架构具有一些属性: 完全静态资源。安装service worker文件和配置JS片段等过程只需要完成一
service-worker - 如何在用户脚本中使用服务 worker
我要缓存某人网站中的特定请求，那么我发现 service worker 是一个不错的选择。但我找不到任何方法通过 tampermonkey 注入(inject)一个 service worker
service-worker - 刷新时激活更新的服务 worker
当 Service Worker 更新时，它不会以正确的方式控制页面；它进入“等待”状态，等待被激活。令人惊讶的是，更新后的 Service Worker 甚至在刷新页面后都无法控制选项卡。谷歌解释
service-worker - 从 Service Worker 中获取 Service Worker id 或 date
有谁知道是否有办法在 service worker 中获取此号码或日期: 将我的服务 worker 缓存命名为 cache-1182 会很方便或 cache-20171127171448 我想在安装事
javascript - Uncaught ReferenceError : Worker is not defined while trying to create a Worker within another Worker in Chrome
这link说: Workers may spawn more workers if they wish. So-called sub-workers must be hosted within the
angular - 如何使用Angular的safety-worker.js卸载Service Worker？
有许多关于使用 ngsw-worker.js 安装 ServiceWorker 的分步指南；然而，甚至没有关于使用 safety-worker.js 卸载 ServiceWorker 的分步指南。 s
service-worker - Service Worker 中未触发定期同步
我正在尝试为我的网站使用后台定期同步。我正在使用 localhost 并在 1*1000 毫秒时注册 periodicsync 事件，但这根本不会触发。我看过这个demo ，但即使我将该网站安装为应
celery 多名 worker ，但只有一名击败 worker
我试图让用户安排一个周期性任务。我还在一个容器中运行多个 celery worker 。我对该容器的命令过去是这样的: celery worker -c 4 -B -l INFO -A my.cele
service-worker - Service Worker 的目的是什么？
从我所看到的，你甚至可以缓存一个网页。根据此文档:https://www.mnot.net/cache_docs/#BROWSER ，表示可以缓存在浏览器缓存中。我看到即使是 serviceworke
service-worker - 为什么服务 worker 缓存所有图像？
我只是在测试 Service Worker 的功能以了解其工作原理。所以现在我遇到了一个问题。 var CACHE_NAME = 'my-site-cache-v1'; var urlsToCache
service-worker - 如何阻止年长的 Service Worker？
下图显示安装了两名工作人员 - 一名处于事件状态，另一名未处于事件状态(刚刚安装)。注册 service worker 更改 service-worker.js并重新加载页面。逻辑是 Servic
service-worker - service worker 在第一次加载时获取事件
我正在尝试学习渐进式 Web 应用程序的一些基础知识，并且在我阅读的其中一篇教程中学习 [在安装了 service worker 并且用户导航到不同的页面或刷新后，service worker 将开始
service-worker - Service Worker 与网页之间的通信
我正在开发一个应用程序，其目标是定期(例如每小时)向用户发送通知。我的想法是使用一个可以在选项卡关闭后运行的服务 worker ，并继续向用户发送这些通知。网页需要能够与 Service Work
service-worker - Service Worker 和透明缓存更新
我正在尝试为一个简单但旧的 Django Web 应用程序安装 ServiceWorker。我开始使用示例 read-through caching example from the Chrome t
service-worker - 在开发模式下禁用 Service Worker。
在我们开发的情况下，我们提供来自 https://localhost 的文件因为该应用程序托管在 salesforce.com 中。在 chrome service worker 中，chrome 会
service-worker - 服务 worker 在浏览器离线时保存表单数据
我是服务人员的新手，并且浏览了各种文档(Google，Mozilla，serviceworke.rs，Github，StackOverflow questions)。最有用的是ServiceWorke
温暖 worker 的Go worker 模式
我正在解决一个问题，我有一组“热情的 worker ”。这意味着它们被维护在内存中，维护自己的上下文并且是可调用的。我一直在研究各种 Go Worker 实现，但都依赖于闭包或返回结果的简单计算函数。
service-worker - Service Worker 未在非根路径上使用
我有一个部署到静态服务器的非根路径的网络应用程序。即MyApp构建时部署到路径/文件夹 https://example.com/myapp . MyApp正在使用 vue 和 webpack 所以我添

首页

博学

6Ren·AI

商城

python - Spark 异常 : Python in worker has different version 3. 4 比驱动程序 3.5