scala - 如何使 saveAsTextFile 不将输出拆分为多个文件？-6ren

scala - 如何使 saveAsTextFile 不将输出拆分为多个文件？

转载作者：行者123 更新时间：2023-12-03 05:19:11

在 Spark 中使用 Scala 时，每当我使用 saveAsTextFile 转储结果时，它似乎将输出分成多个部分。我只是向它传递一个参数(路径)。

val year = sc.textFile("apat63_99.txt").map(_.split(",")(1)).flatMap(_.split(",")).map((_,1)).reduceByKey((_+_)).map(_.swap)
year.saveAsTextFile("year")

输出的数量是否与其使用的 reducer 的数量相对应？
这是否意味着输出被压缩了？
我知道我可以使用 bash 将输出组合在一起，但是是否有一个选项可以将输出存储在单个文本文件中，而不需要拆分？我查看了 API 文档，但它对此没有说太多。

最佳答案

之所以将其保存为多个文件，是因为计算是分布式的。如果输出足够小，您认为可以将其安装在一台机器上，那么您可以使用

结束程序

val arr = year.collect()

然后将结果数组保存为文件，另一种方法是使用自定义分区器，partitionBy ，并使其所有内容都进入一个分区，但这并不可取，因为您不会获得任何并行化。

如果您需要使用 saveAsTextFile 保存文件，您可以使用 coalesce(1,true).saveAsTextFile()。这基本上意味着进行计算然后合并到 1 个分区。您还可以使用repartition(1)，它只是coalesce 的包装器，并将shuffle 参数设置为true。翻查源码RDD.scala这就是我解决大部分问题的方法，你应该看看。

关于scala - 如何使 saveAsTextFile 不将输出拆分为多个文件？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/24371259/