gpt4 book ai didi

scala - Spark saveAsTextFile 到 Azure Blob 创建一个 blob 而不是文本文件

转载 作者:行者123 更新时间:2023-12-04 18:00:24 24 4
gpt4 key购买 nike

我正在尝试将 RDD 保存到文本文件中。我的 Spark 实例在 Linux 上运行并连接到 Azure Blob

   val rdd = sc.textFile("wasb:///HdiSamples/HdiSamples/SensorSampleData/hvac/HVAC.csv")

//find the rows which have only one digit in the 7th column in the CSV
val rdd1 = rdd.filter(s => s.split(",")(6).length() == 1)

rdd1.saveAsTextFile("wasb:///HVACOut")

当我查看输出时,它不是单个文本文件,而是名为 HVACOut 的文件夹中的一系列应用程序/八位字节流文件。

如何将其输出为单个文本文件?

最佳答案

嗯,我不确定你是否可以只获取一个没有目录的文件。如果你这样做

rdd1 .coalesce(1).saveAsTextFile("wasb:///HVACOut")

您将在名为“HVACOut”的目录中获得一个文件,该文件应类似于part-00001。这是因为您的 rdd 在集群中受到所谓分区的干扰。当您调用保存(所有保存函数)时,它将为每个分区创建一个文件。因此,通过调用 coalesce(1) 你可以告诉你你想要 1 个分区。

希望这有帮助。

关于scala - Spark saveAsTextFile 到 Azure Blob 创建一个 blob 而不是文本文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36167221/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com