apache-spark - 当我在 Windows 7 中运行 `first` 或 `take` 方法时，pyspark 崩溃-6ren

apache-spark - 当我在 Windows 7 中运行 `first` 或 `take` 方法时，pyspark 崩溃

转载作者：行者123 更新时间：2023-12-03 17:42:05

我只是运行这些命令:

>>> lines = sc.textFile("C:\Users\elqstux\Desktop\dtop.txt")

>>> lines.count()  // this work fine

>>> lines.first()  // this crash

这是错误报告:

>>> lines.first()

    15/11/18 17:33:35 INFO SparkContext: Starting job: runJob at PythonRDD.scala:393

    15/11/18 17:33:35 INFO DAGScheduler: Got job 21 (runJob at PythonRDD.scala:393)
    with 1 output partitions
    15/11/18 17:33:35 INFO DAGScheduler: Final stage: ResultStage 21(runJob at Pytho
    nRDD.scala:393)
    15/11/18 17:33:35 INFO DAGScheduler: Parents of final stage: List()
    15/11/18 17:33:35 INFO DAGScheduler: Missing parents: List()
    15/11/18 17:33:35 INFO DAGScheduler: Submitting ResultStage 21 (PythonRDD[28] at
     RDD at PythonRDD.scala:43), which has no missing parents
    15/11/18 17:33:35 INFO MemoryStore: ensureFreeSpace(4824) called with curMem=619
    446, maxMem=555755765
    15/11/18 17:33:35 INFO MemoryStore: Block broadcast_24 stored as values in memor
    y (estimated size 4.7 KB, free 529.4 MB)
    15/11/18 17:33:35 INFO MemoryStore: ensureFreeSpace(3067) called with curMem=624
    270, maxMem=555755765
    15/11/18 17:33:35 INFO MemoryStore: Block broadcast_24_piece0 stored as bytes in
     memory (estimated size 3.0 KB, free 529.4 MB)
    15/11/18 17:33:35 INFO BlockManagerInfo: Added broadcast_24_piece0 in memory on
    localhost:55487 (size: 3.0 KB, free: 529.9 MB)
    15/11/18 17:33:35 INFO SparkContext: Created broadcast 24 from broadcast at DAGS
    cheduler.scala:861
    15/11/18 17:33:35 INFO DAGScheduler: Submitting 1 missing tasks from ResultStage
     21 (PythonRDD[28] at RDD at PythonRDD.scala:43)
    15/11/18 17:33:35 INFO TaskSchedulerImpl: Adding task set 21.0 with 1 tasks
    15/11/18 17:33:35 INFO TaskSetManager: Starting task 0.0 in stage 21.0 (TID 33,
    localhost, PROCESS_LOCAL, 2148 bytes)
    15/11/18 17:33:35 INFO Executor: Running task 0.0 in stage 21.0 (TID 33)
    15/11/18 17:33:35 INFO HadoopRDD: Input split: file:/C:/Users/elqstux/Desktop/dt
    op.txt:0+112852
    15/11/18 17:33:36 INFO PythonRunner: Times: total = 629, boot = 626, init = 3, f
    inish = 0
    15/11/18 17:33:36 ERROR PythonRunner: Python worker exited unexpectedly (crashed
    )
    java.net.SocketException: Connection reset by peer: socket write error
            at java.net.SocketOutputStream.socketWrite0(Native Method)
            at java.net.SocketOutputStream.socketWrite(SocketOutputStream.java:109)
            at java.net.SocketOutputStream.write(SocketOutputStream.java:153)
            at java.io.BufferedOutputStream.flushBuffer(BufferedOutputStream.java:82
    )
            at java.io.BufferedOutputStream.flush(BufferedOutputStream.java:140)
            at java.io.DataOutputStream.flush(DataOutputStream.java:123)
            at org.apache.spark.api.python.PythonRunner$WriterThread$$anonfun$run$3.
    apply(PythonRDD.scala:283)
            at org.apache.spark.util.Utils$.logUncaughtExceptions(Utils.scala:1699)
            at org.apache.spark.api.python.PythonRunner$WriterThread.run(PythonRDD.s
    cala:239)
    15/11/18 17:33:36 ERROR PythonRunner: This may have been caused by a prior excep
    tion:
    java.net.SocketException: Connection reset by peer: socket write error
            at java.net.SocketOutputStream.socketWrite0(Native Method)
            at java.net.SocketOutputStream.socketWrite(SocketOutputStream.java:109)
            at java.net.SocketOutputStream.write(SocketOutputStream.java:153)
            at java.io.BufferedOutputStream.flushBuffer(BufferedOutputStream.java:82
    )
            at java.io.BufferedOutputStream.flush(BufferedOutputStream.java:140)
            at java.io.DataOutputStream.flush(DataOutputStream.java:123)
            at org.apache.spark.api.python.PythonRunner$WriterThread$$anonfun$run$3.
    apply(PythonRDD.scala:283)
            at org.apache.spark.util.Utils$.logUncaughtExceptions(Utils.scala:1699)
            at org.apache.spark.api.python.PythonRunner$WriterThread.run(PythonRDD.s
    cala:239)
    15/11/18 17:33:36 ERROR Executor: Exception in task 0.0 in stage 21.0 (TID 33)
    java.net.SocketException: Connection reset by peer: socket write error
            at java.net.SocketOutputStream.socketWrite0(Native Method)
            at java.net.SocketOutputStream.socketWrite(SocketOutputStream.java:109)
            at java.net.SocketOutputStream.write(SocketOutputStream.java:153)
            at java.io.BufferedOutputStream.flushBuffer(BufferedOutputStream.java:82
    )
            at java.io.BufferedOutputStream.flush(BufferedOutputStream.java:140)
            at java.io.DataOutputStream.flush(DataOutputStream.java:123)
            at org.apache.spark.api.python.PythonRunner$WriterThread$$anonfun$run$3.
    apply(PythonRDD.scala:283)
            at org.apache.spark.util.Utils$.logUncaughtExceptions(Utils.scala:1699)
            at org.apache.spark.api.python.PythonRunner$WriterThread.run(PythonRDD.s
    cala:239)
    15/11/18 17:33:36 WARN TaskSetManager: Lost task 0.0 in stage 21.0 (TID 33, loca
    lhost): java.net.SocketException: Connection reset by peer: socket write error
            at java.net.SocketOutputStream.socketWrite0(Native Method)
            at java.net.SocketOutputStream.socketWrite(SocketOutputStream.java:109)
            at java.net.SocketOutputStream.write(SocketOutputStream.java:153)
            at java.io.BufferedOutputStream.flushBuffer(BufferedOutputStream.java:82
    )
            at java.io.BufferedOutputStream.flush(BufferedOutputStream.java:140)
            at java.io.DataOutputStream.flush(DataOutputStream.java:123)
            at org.apache.spark.api.python.PythonRunner$WriterThread$$anonfun$run$3.
    apply(PythonRDD.scala:283)
            at org.apache.spark.util.Utils$.logUncaughtExceptions(Utils.scala:1699)
            at org.apache.spark.api.python.PythonRunner$WriterThread.run(PythonRDD.s
    cala:239)

    15/11/18 17:33:36 ERROR TaskSetManager: Task 0 in stage 21.0 failed 1 times; abo
    rting job
    15/11/18 17:33:36 INFO TaskSchedulerImpl: Removed TaskSet 21.0, whose tasks have
     all completed, from pool
    15/11/18 17:33:36 INFO TaskSchedulerImpl: Cancelling stage 21
    15/11/18 17:33:36 INFO DAGScheduler: ResultStage 21 (runJob at PythonRDD.scala:3
    93) failed in 0.759 s
    15/11/18 17:33:36 INFO DAGScheduler: Job 21 failed: runJob at PythonRDD.scala:39
    3, took 0.810138 s
    Traceback (most recent call last):
      File "<stdin>", line 1, in <module>
      File "c:\spark-1.5.2-bin-hadoop2.6\python\pyspark\rdd.py", line 1317, in first

        rs = self.take(1)
      File "c:\spark-1.5.2-bin-hadoop2.6\python\pyspark\rdd.py", line 1299, in take
        res = self.context.runJob(self, takeUpToNumLeft, p)
      File "c:\spark-1.5.2-bin-hadoop2.6\python\pyspark\context.py", line 916, in ru
    nJob
        port = self._jvm.PythonRDD.runJob(self._jsc.sc(), mappedRDD._jrdd, partition
    s)
      File "c:\spark-1.5.2-bin-hadoop2.6\python\lib\py4j-0.8.2.1-src.zip\py4j\java_g
    ateway.py", line 538, in __call__
      File "c:\spark-1.5.2-bin-hadoop2.6\python\pyspark\sql\utils.py", line 36, in d
    eco
        return f(*a, **kw)
      File "c:\spark-1.5.2-bin-hadoop2.6\python\lib\py4j-0.8.2.1-src.zip\py4j\protoc
    ol.py", line 300, in get_return_value
    py4j.protocol.Py4JJavaError: An error occurred while calling z:org.apache.spark.
    api.python.PythonRDD.runJob.
    : org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in s
    tage 21.0 failed 1 times, most recent failure: Lost task 0.0 in stage 21.0 (TID
    33, localhost): java.net.SocketException: Connection reset by peer: socket write
     error
            at java.net.SocketOutputStream.socketWrite0(Native Method)
            at java.net.SocketOutputStream.socketWrite(SocketOutputStream.java:109)
            at java.net.SocketOutputStream.write(SocketOutputStream.java:153)
            at java.io.BufferedOutputStream.flushBuffer(BufferedOutputStream.java:82
    )
            at java.io.BufferedOutputStream.flush(BufferedOutputStream.java:140)
            at java.io.DataOutputStream.flush(DataOutputStream.java:123)
            at org.apache.spark.api.python.PythonRunner$WriterThread$$anonfun$run$3.
    apply(PythonRDD.scala:283)
            at org.apache.spark.util.Utils$.logUncaughtExceptions(Utils.scala:1699)
            at org.apache.spark.api.python.PythonRunner$WriterThread.run(PythonRDD.s
    cala:239)

    Driver stacktrace:
            at org.apache.spark.scheduler.DAGScheduler.org$apache$spark$scheduler$DA
    GScheduler$$failJobAndIndependentStages(DAGScheduler.scala:1283)
            at org.apache.spark.scheduler.DAGScheduler$$anonfun$abortStage$1.apply(D
    AGScheduler.scala:1271)
            at org.apache.spark.scheduler.DAGScheduler$$anonfun$abortStage$1.apply(D
    AGScheduler.scala:1270)
            at scala.collection.mutable.ResizableArray$class.foreach(ResizableArray.
    scala:59)
            at scala.collection.mutable.ArrayBuffer.foreach(ArrayBuffer.scala:47)
            at org.apache.spark.scheduler.DAGScheduler.abortStage(DAGScheduler.scala
    :1270)
            at org.apache.spark.scheduler.DAGScheduler$$anonfun$handleTaskSetFailed$
    1.apply(DAGScheduler.scala:697)
            at org.apache.spark.scheduler.DAGScheduler$$anonfun$handleTaskSetFailed$
    1.apply(DAGScheduler.scala:697)
            at scala.Option.foreach(Option.scala:236)
            at org.apache.spark.scheduler.DAGScheduler.handleTaskSetFailed(DAGSchedu
    ler.scala:697)
            at org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.doOnReceive(D
    AGScheduler.scala:1496)
            at org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.onReceive(DAG
    Scheduler.scala:1458)
            at org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.onReceive(DAG
    Scheduler.scala:1447)
            at org.apache.spark.util.EventLoop$$anon$1.run(EventLoop.scala:48)
            at org.apache.spark.scheduler.DAGScheduler.runJob(DAGScheduler.scala:567
    )
            at org.apache.spark.SparkContext.runJob(SparkContext.scala:1824)
            at org.apache.spark.SparkContext.runJob(SparkContext.scala:1837)
            at org.apache.spark.SparkContext.runJob(SparkContext.scala:1850)
            at org.apache.spark.api.python.PythonRDD$.runJob(PythonRDD.scala:393)
            at org.apache.spark.api.python.PythonRDD.runJob(PythonRDD.scala)
            at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
            at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.
    java:62)
            at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAcces
    sorImpl.java:43)
            at java.lang.reflect.Method.invoke(Method.java:483)
            at py4j.reflection.MethodInvoker.invoke(MethodInvoker.java:231)
            at py4j.reflection.ReflectionEngine.invoke(ReflectionEngine.java:379)
            at py4j.Gateway.invoke(Gateway.java:259)
            at py4j.commands.AbstractCommand.invokeMethod(AbstractCommand.java:133)
            at py4j.commands.CallCommand.execute(CallCommand.java:79)
            at py4j.GatewayConnection.run(GatewayConnection.java:207)
            at java.lang.Thread.run(Thread.java:745)
    Caused by: java.net.SocketException: Connection reset by peer: socket write erro
    r
            at java.net.SocketOutputStream.socketWrite0(Native Method)
            at java.net.SocketOutputStream.socketWrite(SocketOutputStream.java:109)
            at java.net.SocketOutputStream.write(SocketOutputStream.java:153)
            at java.io.BufferedOutputStream.flushBuffer(BufferedOutputStream.java:82
    )
            at java.io.BufferedOutputStream.flush(BufferedOutputStream.java:140)
            at java.io.DataOutputStream.flush(DataOutputStream.java:123)
            at org.apache.spark.api.python.PythonRunner$WriterThread$$anonfun$run$3.
    apply(PythonRDD.scala:283)
            at org.apache.spark.util.Utils$.logUncaughtExceptions(Utils.scala:1699)
            at org.apache.spark.api.python.PythonRunner$WriterThread.run(PythonRDD.s
    cala:239)

当我运行时 take ，它也崩溃了，我找不到原因，谁能帮我？

最佳答案

我在 Windows 7 和 Spark 1.5.0 (Python 2.7.11) 上被同样的问题困了几个小时。我解决了只切换到 Unix，使用完全相同的构建。这不是一个优雅的解决方案，但我找不到任何其他方法来解决这个问题。

关于apache-spark - 当我在 Windows 7 中运行 `first` 或 `take` 方法时，pyspark 崩溃，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/33776353/

文章推荐： amazon-web-services - AWS S3 服务器端加密访问被拒绝错误

文章推荐： html - 为什么我的职位是:sticky not working?

javascript - 为什么我能够在控制台 window.window.window.window 中执行此操作并返回 window ？
为什么我可以在控制台 window.window.window.window 中执行此操作并无限追加 .window 并返回 DOM 窗口？最佳答案因为 window 对象有一个指向它自身的 wi
windows - Windows 管理员和 Windows 系统用户有什么区别
Windows管理员用户和系统用户之间有什么权限区别吗？有些时候，我必须将 cmd 窗口提升到系统权限才能删除一些文件。这可能是因为系统用户锁定了文件，或者系统用户可能具有更高的访问权限，我希望找出
windows - Windows 桌面应用程序和 Windows 应用商店应用程序有什么区别
按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the
windows - Windows 服务和 Windows 进程之间有什么区别？
Windows 服务和 Windows 进程之间的区别是什么？最佳答案服务是真正的 Windows 进程，没有区别。服务的唯一特殊之处在于它由操作系统启动并在单独的 session 中运行。一个独
windows - 如何找出哪个用户以编程方式将打印命令发送到 windows/windows 服务器？
我有一个 Windows 网络 (peer-2-peer) 以及 Active Directory，我需要记录向服务器发送任何类型打印的用户的名称。我想编写一个程序来记录他们的用户名和/或他们各自的
windows - Windows 服务可以安装另一个 Windows 服务吗？
当我让一个 Windows 服务尝试安装另一个 Windows 服务时遇到问题。具体来说，我有一个 TeamCity 代理在 Windows 2008 AWS 实例上为我运行测试。这些测试是用 Ja
windows - Windows 服务可以接收 Windows 消息吗？
我创建了一个应用程序来接收广播的 Windows 消息，效果很好。当我把它变成一个服务、安装它并启动服务时，该服务没有收到消息。最佳答案服务可能必须被授予访问桌面的权限。从服务属性、“登录”选项卡
windows - Windows 启动时启动我的应用程序(所有版本的 Windows)？
我正在使用 Delphi 2010 编写应用程序。我希望在 Windows 启动时启动我的应用程序。我需要它在最新版本的 Windows XP、7.0 和最新的服务器中工作。将其存储在以下关键工作下
windows-7 - Windows XP、Windows Vista 和 Windows 7 上的不同文件打开对话框
我想开发一个适用于所有三个版本的 Windows XP、Vista 和 7 的应用程序。该应用程序允许人们选择要打开的文件，并允许他们在某些操作后保存文件。三个版本的 Windows 中的每一个都有不
windows -\Windows\versus\Windows\System32 - 文件位置约定
对于\Windows\中的文件类型与\Windows\System32 中的文件类型是否有标准约定？我正在开发一个 SDK，其中包含各种 DLL、帮助程序 exe 和 Windows 服务 exe。
windows - 如何将 Windows 登录过程延迟到 Windows 服务的偶数
要求是，必须在 WINDOWS7 机器上配置自动登录，但是这个自动登录应该等待(即延迟)直到另一个 Windows 服务发出继续自动登录的信号。我使用了自定义凭据提供程序，它在其中等待另一个 Win
windows - Windows/Windows CE的串行I/O重叠/不重叠
很抱歉，这不是一个大问题，而是更多的帮助人们解决这些特定问题的方法。我正在解决的问题要求使用串行I/O，但主要在Windows CE 6.0下运行。但是，最近有人问我是否也可以在Windows下运行该
windows - 为什么 Windows 32 位称为 Windows x86 而不是 Windows x32？
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。这个问题似乎不是关于 a specific programming problem, a softwar
windows - 用于检查 Windows 服务是否正在运行以及是否不启动该服务的脚本。 Windows 2000
不幸的是 SC 命令在 W2000 上还不可用，所以我不能使用它。我正在尝试检查服务是否在 W2000 服务器上运行，如果它没有运行，脚本应该能够启动该服务。如何在 Windows 2000 上执
windows - 在登录到 Windows 之前启动 Windows 窗体应用程序
如何在登录到 Windows 之前启动 Windows 窗体应用程序？是否可以在登录到 Windows 之前启动 Windows 窗体应用程序？如果不是，我是否有机会在登录前启动 Windows 服务
windows - 使用 Windows 任务计划程序调用 Windows 服务时出现问题
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。这个问题似乎不是关于 a specific programming problem, a softwar
windows - 确定操作系统类型的环境变量(Windows XP、Windows 7)
我想在 XML 文件中区分 Windows XP 和 Windows 7。我想我会在 XML 中为它使用一个环境变量。但是我找不到在 Windows 中定义的任何系统环境变量来提供此信息。我看到了
windows - 如何检查是否安装了 Windows 通讯簿或 Windows 联系人
有谁知道我可以在注册表中的哪个位置检查机器上是否安装了这些应用程序: Windows 通讯录 Windows 联系人最佳答案来自 Microsoft:我知道它说的是 win 95，但 reg 是一
windows - 通过另一台 Windows 服务器上的批处理文件在远程 Windows 服务器上执行批处理文件
我正在尝试从我的 Windows 服务器调用放置在远程 Windows 服务器上的批处理文件。我在远程服务器上安装了 freeSSHd。我尝试使用 putty/plink 但没有结果。我使用的命令语
windows - 从 Windows 服务更改显示分辨率 (Windows 7)
( 大家好。我是 Windows 编程的新手，所以如果已经有人问过我，我提前道歉，我只是不知道要搜索什么，但这个问题一直让我发疯，我知道有人可能真的很容易回答这个问题。) 我的公司有一个在 Windo

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

apache-spark - 当我在 Windows 7 中运行 `first` 或 `take` 方法时，pyspark 崩溃