gpt4 book ai didi

scala - Spark 并行处理列

转载 作者:行者123 更新时间:2023-12-04 15:22:24 26 4
gpt4 key购买 nike

我一直在玩 Spark,我设法让它处理我的数据。我的数据由平面分隔的文本文件组成,由 50 列和大约 2000 万行组成。我有将处理每一列的 Scala 脚本。

在并行处理方面,我知道RDD操作运行在多个节点上。所以,每次我处理一列时,它们都是并行处理的,但列本身是按顺序处理的。

一个简单的例子:如果我的数据是 5 列文本分隔文件并且每列包含文本,并且我想对每列进行字数统计。我会做:

for(i <- 0 until 4){
data.map(_.split("\t",-1)(i)).map((_,1)).reduce(_+_)
}

虽然每个列的操作都是并行运行的,但列本身是按顺序处理的(我知道用词不好。对不起!)。换句话说,在第 1 列完成后处理第 2 列。在第 1 列和第 2 列完成后处理第 3 列,依此类推。

我的问题是:是否可以一次处理多个列?如果你知道一种方法,或者一个教程,你介意与我分享吗?

谢谢你!!

最佳答案

假设输入是 seq。可以执行以下操作来并发处理列。基本思想是使用序列(列,输入)作为键。

scala> val rdd = sc.parallelize((1 to 4).map(x=>Seq("x_0", "x_1", "x_2", "x_3")))
rdd: org.apache.spark.rdd.RDD[Seq[String]] = ParallelCollectionRDD[26] at parallelize at <console>:12

scala> val rdd1 = rdd.flatMap{x=>{(0 to x.size - 1).map(idx=>(idx, x(idx)))}}
rdd1: org.apache.spark.rdd.RDD[(Int, String)] = FlatMappedRDD[27] at flatMap at <console>:14

scala> val rdd2 = rdd1.map(x=>(x, 1))
rdd2: org.apache.spark.rdd.RDD[((Int, String), Int)] = MappedRDD[28] at map at <console>:16

scala> val rdd3 = rdd2.reduceByKey(_+_)
rdd3: org.apache.spark.rdd.RDD[((Int, String), Int)] = ShuffledRDD[29] at reduceByKey at <console>:18

scala> rdd3.take(4)
res22: Array[((Int, String), Int)] = Array(((0,x_0),4), ((3,x_3),4), ((2,x_2),4), ((1,x_1),4))

示例输出:((0, x_0), 4) 表示第一列,key为x_0,value为4,可以从这里开始进一步处理。

关于scala - Spark 并行处理列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25171070/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com