作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
在 Spark 中使用 Scala 时,每当我使用 saveAsTextFile 转储结果时,它似乎将输出分成多个部分。我只是向它传递一个参数(路径)。
val year = sc.textFile("apat63_99.txt").map(_.split(",")(1)).flatMap(_.split(",")).map((_,1)).reduceByKey((_+_)).map(_.swap)
year.saveAsTextFile("year")
最佳答案
之所以将其保存为多个文件,是因为计算是分布式的。如果输出足够小,您认为可以将其安装在一台机器上,那么您可以使用
结束程序val arr = year.collect()
然后将结果数组保存为文件,另一种方法是使用自定义分区器,partitionBy
,并使其所有内容都进入一个分区,但这并不可取,因为您不会获得任何并行化。
如果您需要使用 saveAsTextFile
保存文件,您可以使用 coalesce(1,true).saveAsTextFile()
。这基本上意味着进行计算然后合并到 1 个分区。您还可以使用repartition(1)
,它只是coalesce
的包装器,并将shuffle 参数设置为true。翻查源码RDD.scala这就是我解决大部分问题的方法,你应该看看。
关于scala - 如何使 saveAsTextFile 不将输出拆分为多个文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24371259/
我是一名优秀的程序员,十分优秀!