gpt4 book ai didi

windows - Pyspark上saveAsTextFile()中命令字符串异常中的(null)条目

转载 作者:行者123 更新时间:2023-12-03 23:11:36 25 4
gpt4 key购买 nike

我正在Windows 7的Jupyter笔记本(Python 2.7)上的PySpark中工作。我有一个pyspark.rdd.PipelinedRDD类型的RDD,称为idSums。尝试执行idSums.saveAsTextFile("Output")时,出现以下错误:

Py4JJavaError: An error occurred while calling o834.saveAsTextFile.
: org.apache.spark.SparkException: Job aborted due to stage failure: Task 1 in stage 33.0 failed 1 times, most recent failure: Lost task 1.0 in stage 33.0 (TID 131, localhost): java.io.IOException: (null) entry in command string: null chmod 0644 C:\Users\seride\Desktop\Experiments\PySpark\Output\_temporary\0\_temporary\attempt_201611231307_0033_m_000001_131\part-00001

我认为RDD对象应该没有任何问题,因为我能够执行其他操作而不会出错,例如执行 idSums.collect()会产生正确的输出。

此外,创建了 Output目录(包含所有子目录)并创建了文件 part-00001,但它为0字节。

最佳答案

您缺少 winutils.exe hadoop二进制文件。取决于x64位/x32位系统,下载 winutils.exe 文件并设置您的hadoop home指向该文件。
第一种方式:

  • 下载文件
  • 在系统中创建hadoop文件夹,例如C:
  • bin目录中创建hadoop文件夹,例如:C:\hadoop\bin
  • winutils.exe粘贴到bin中,例如:C:\hadoop\bin\winutils.exe
  • 在系统属性的用户变量中->高级系统设置

  • 创建新变量
    名称: HADOOP_HOME路径: C:\hadoop\第二种方式:
    您可以使用以下命令在Java程序中直接设置hadoop home:
    System.setProperty("hadoop.home.dir","C:\hadoop" );

    关于windows - Pyspark上saveAsTextFile()中命令字符串异常中的(null)条目,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40764807/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com