gpt4 book ai didi

amazon-s3 - 使用 Snappy 压缩以 ORC 格式编写 Spark 数据帧

转载 作者:行者123 更新时间:2023-12-01 13:44:42 24 4
gpt4 key购买 nike

我成功地读取了存储在 S3 中的文本文件,并使用 Spark 数据帧以 ORC 格式将其写回 S3。 - inputDf.write().orc(outputPath);我无法做的是通过快速压缩转换为 ORC 格式。我已经尝试在将编解码器设置为 snappy 时给出选项,但 Spark 仍然像正常的 ORC 一样编写。如何使用 Spark Dataframes 通过 Snappy 压缩以 ORC 格式写入到 S3?

最佳答案

对于任何面临同样问题的人,
在 Spark 2.0 中,默认情况下这是可能的。
ORC 的默认压缩格式设置为 snappy。

public class ConvertToOrc {
public static void main(String[] args) {
SparkSession spark = SparkSession
.builder()
.appName("OrcConvert")
.getOrCreate();
String inputPath = args[0];
String outputPath = args[1];

Dataset<Row> inputDf = spark.read().option("sep", "\001").option("quote", "'").csv(inputPath);
inputDf.write().format("orc").save(outputPath);

}
}

关于amazon-s3 - 使用 Snappy 压缩以 ORC 格式编写 Spark 数据帧,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36860728/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com