gpt4 book ai didi

scala - 如何在 Spark 中将 RDD 转换为 RDD

转载 作者:行者123 更新时间:2023-12-05 00:21:34 25 4
gpt4 key购买 nike

我有一个文件,其中每一行都是这样

info1,info2
info3,info4
...

扫描后,我想运行k-means算法:
  val rawData = sc.textFile(myFile)
val converted = convertToVector(rawData)
val kmeans = new KMeans()
kmeans.setK(10)
kmeans.setRuns(10)
kmeans.setEpsilon(1.0e-6)
val model = kmeans.run(rawData) -> problem: k-means accepts only RDD<Vector>

因为 k-means 只接受 RDD<Vector> ,我创建了一个函数来转换我的 RDD<String> rawDataRDD<Vector> .但是我对如何做到这一点感到困惑,下面的这个功能正在进行中:
def converToVector(rawData: RDD[String]): RDD[Vector] = {

//TODO...
val toConvert = rawData.collect().toVector
val map = rawData.map {
line => line.split(",").toVector
}

map
}

关于如何实现这一目标的任何建议?

提前致谢。

最佳答案

考虑到输入文件的每一行都是一个由逗号分隔的字符串表示的假设向量,这是一个非常基本的操作。

您只需要映射每个字符串条目,在分隔符上将其拆分,然后从中创建一个密集的 Vector:

val parsedData = rawData.map(s => Vectors.dense(s.split(',').map(_.toDouble)))

关于scala - 如何在 Spark 中将 RDD<String> 转换为 RDD<Vector>?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31449175/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com