gpt4 book ai didi

scala - Spark : saveAsTextFile without compression

转载 作者:行者123 更新时间:2023-12-03 14:40:16 25 4
gpt4 key购买 nike

默认情况下,较新版本的 Spark 在保存文本文件时使用压缩。例如:

val txt = sc.parallelize(List("Hello", "world", "!"))
txt.saveAsTextFile("/path/to/output")

将在 .deflate 中创建文件格式。更改压缩算法非常容易,例如为 .gzip :
import org.apache.hadoop.io.compress._
val txt = sc.parallelize(List("Hello", "world", "!"))
txt.saveAsTextFile("/path/to/output", classOf[GzipCodec])

但是有没有办法到 保存RDD 作为纯文本文件,即 没有任何压缩 ?

最佳答案

我可以看到 HDFS 中没有任何压缩的文本文件 用这个代码。

val conf = new SparkConf().setMaster("local").setAppName("App name")
val sc = new SparkContext(conf);
sc.hadoopConfiguration.set("mapred.output.compress", "false")
val txt = sc.parallelize(List("Hello", "world", "!"))
txt.saveAsTextFile("hdfs/path/to/save/file")

您可以将所有与 Hadoop 相关的属性设置为 hadoopConfigurationsc .

在 Spark 1.5.2(scala 2.11) 中验证了此代码。

关于scala - Spark : saveAsTextFile without compression,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40263907/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com