gpt4 book ai didi

scala - 如何使 saveAsTextFile 不将输出拆分为多个文件?

转载 作者:行者123 更新时间:2023-12-03 05:19:11 27 4
gpt4 key购买 nike

在 Spark 中使用 Scala 时,每当我使用 saveAsTextFile 转储结果时,它似乎将输出分成多个部分。我只是向它传递一个参数(路径)。

val year = sc.textFile("apat63_99.txt").map(_.split(",")(1)).flatMap(_.split(",")).map((_,1)).reduceByKey((_+_)).map(_.swap)
year.saveAsTextFile("year")
  1. 输出的数量是否与其使用的 reducer 的数量相对应?
  2. 这是否意味着输出被压缩了?
  3. 我知道我可以使用 bash 将输出组合在一起,但是是否有一个选项可以将输出存储在单个文本文件中,而不需要拆分?我查看了 API 文档,但它对此没有说太多。

最佳答案

之所以将其保存为多个文件,是因为计算是分布式的。如果输出足够小,您认为可以将其安装在一台机器上,那么您可以使用

结束程序
val arr = year.collect()

然后将结果数组保存为文件,另一种方法是使用自定义分区器,partitionBy ,并使其所有内容都进入一个分区,但这并不可取,因为您不会获得任何并行化。

如果您需要使用 saveAsTextFile 保存文件,您可以使用 coalesce(1,true).saveAsTextFile()。这基本上意味着进行计算然后合并到 1 个分区。您还可以使用repartition(1),它只是coalesce 的包装器,并将shuffle 参数设置为true。翻查源码RDD.scala这就是我解决大部分问题的方法,你应该看看。

关于scala - 如何使 saveAsTextFile 不将输出拆分为多个文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24371259/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com