gpt4 book ai didi

hadoop - 如何更改 pyspark 中的 hdfs block 大小?

转载 作者:可可西里 更新时间:2023-11-01 15:27:52 24 4
gpt4 key购买 nike

我使用 pySpark 编写 parquet 文件。我想更改该文件的 hdfs block 大小。我这样设置 block 大小,但它不起作用:

sc._jsc.hadoopConfiguration().set("dfs.block.size", "128m")

这是否必须在启动 pySpark 作业之前设置?如果可以,怎么做。

最佳答案

尝试通过 sc._jsc.hadoopConfiguration()SparkContext 设置它

from pyspark import SparkConf, SparkContext 
conf = (SparkConf().setMaster("yarn"))
sc = SparkContext(conf = conf)
sc._jsc.hadoopConfiguration().set("dfs.block.size", "128m")
txt = sc.parallelize(("Hello", "world", "!"))
txt.saveAsTextFile("hdfs/output/path") #saving output with 128MB block size

在 Scala 中:

sc.hadoopConfiguration.set("dfs.block.size", "128m")

关于hadoop - 如何更改 pyspark 中的 hdfs block 大小?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40954825/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com