gpt4 book ai didi

apache-spark - Spark 。简单 "No space available in any of the local directories."

转载 作者:行者123 更新时间:2023-12-04 03:19:24 26 4
gpt4 key购买 nike

这是一个简单的测试程序。这显然是一个微型测试数据程序。

from pyspark.sql.types import Row
from pyspark.sql.types import *
import pyspark.sql.functions as spark_functions

schema = StructType([
StructField("cola", StringType()),
StructField("colb", IntegerType()),
])

rows = [
Row("alpha", 1),
Row("beta", 2),
Row("gamma", 3),
Row("delta", 4)
]

data_frame = spark.createDataFrame(rows, schema)

print("count={}".format(data_frame.count()))

data_frame.write.save("s3a://my-bucket/test_data.parquet", mode="overwrite")

print("done")

这失败了:

Caused by: org.apache.hadoop.util.DiskChecker$DiskErrorException: No space available in any of the local directories.
at org.apache.hadoop.fs.LocalDirAllocator$AllocatorPerContext.getLocalPathForWrite(LocalDirAllocator.java:366)
at org.apache.hadoop.fs.LocalDirAllocator$AllocatorPerContext.createTmpFileForWrite(LocalDirAllocator.java:416)

它在具有 S3 存储的 Amazon EMR 上运行。有足够的磁盘空间。谁能解释一下?

最佳答案

我在 EMR 上使用 Spark 2.2 时遇到了同样的错误。设置 fs.s3a.fast.upload=truefs.s3a.buffer.dir="/home/hadoop,/tmp"(或任何其他文件夹那件事)对我没有帮助。看来我的问题与洗牌空间有关。

我必须将 --conf spark.shuffle.service.enabled=true 添加到我的 spark-submit/spark-shell 来解决这个错误。

关于apache-spark - Spark 。简单 "No space available in any of the local directories.",我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39299276/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com