gpt4 book ai didi

scala - 将 groupByKey() 替换为 reduceByKey()

转载 作者:行者123 更新时间:2023-11-30 08:39:17 28 4
gpt4 key购买 nike

这是 here 的后续问题。我正在尝试基于此实现 k-means implementation 。它工作得很好,但是我想用reduceByKey()替换groupByKey(),但我不知道如何做(我不担心现在关于性能)。这是相关的缩小代码:

val data = sc.textFile("dense.txt").map(
t => (t.split("#")(0), parseVector(t.split("#")(1)))).cache()

val read_mean_centroids = sc.textFile("centroids.txt").map(
t => (t.split("#")(0), parseVector(t.split("#")(1))))
var centroids = read_mean_centroids.takeSample(false, K, 42).map(x => x._2)
do {
var closest = read_mean_centroids.map(p => (closestPoint(p._2, centroids), p._2))
var pointsGroup = closest.groupByKey() // <-- THE VICTIM :)
var newCentroids = pointsGroup.mapValues(ps => average(ps.toSeq)).collectAsMap()
..

请注意 println(newCentroids) 将给出:

Map(23 -> (-6.269305E-4, -0.0011746404, -4.08004E-5), 8 -> (-5.108732E-4, 7.336348E-4, -3.707591E-4), 17 -> (-0.0016383086, -0.0016974678, 1.45..

println(最接近):

MapPartitionsRDD[6] at map at kmeans.scala:75

相关问题:Using reduceByKey in Apache Spark (Scala) .

<小时/>

一些documentation :

def reduceByKey(func: (V, V) ⇒ V): RDD[(K, V)]

使用关联归约函数合并每个键的值。

def reduceByKey(func: (V, V) ⇒ V, numPartitions: Int): RDD[(K, V)]

使用关联归约函数合并每个键的值。

def reduceByKey(partitioner: Partitioner, func: (V, V) ⇒ V): RDD[(K, V)]

使用关联归约函数合并每个键的值。

def groupByKey(): RDD[(K, Iterable[V])]

将 RDD 中每个键的值分组为单个序列。

最佳答案

您可以使用像这样的aggregateByKey()(比reduceByKey()更自然一点)来计算newCentroids:

val newCentroids = closest.aggregateByKey((Vector.zeros(dim), 0L))(
(agg, v) => (agg._1 += v, agg._2 + 1L),
(agg1, agg2) => (agg1._1 += agg2._1, agg1._2 + agg2._2)
).mapValues(agg => agg._1/agg._2).collectAsMap

为此,您需要计算数据的维度,即 dim,但您只需执行一次。您可能可以使用类似 val dim = data.first._2.length 的内容。

关于scala - 将 groupByKey() 替换为 reduceByKey(),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35388277/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com