gpt4 book ai didi

apache-spark - 如何将 spark RDD 转换为 mahout DRM?

转载 作者:行者123 更新时间:2023-12-04 04:12:14 25 4
gpt4 key购买 nike

我在 Mahout 中使用 sc.textFile() 从 Alluxio 获取数据,但它是 spark RDD。我的程序进一步使用这个 spark RDD 作为 Mahout DRM,因此我需要将 RDD 转换为 DRM。所以我当前的代码保持稳定。

最佳答案

可以按照以下步骤从 Apache Spark RDD 创建 Apache Mahout DRM:

  1. 将 RDD 的每一行转换为 Mahout Vector
  2. 用索引压缩 RDD(并交换元组的形式为 (Long, Vector)
  3. 用 DRM 包装 RDD。

考虑以下示例代码:

val rddA = sc.parallelize(Array((1.0, 2.0, 3.0),
( 2.0, 3.0, 4.0),
( 4.0, 5.0, 6.0)))

val drmRddA: DrmRdd[Long] = rddA.map(a => new DenseVector(a))
.zipWithIndex()
.map(t => (t._2, t._1))

val drmA = drmWrap(rdd= drmRddA)

来源/更多信息/Shameless Self Promotion(向底部):my Blog

关于apache-spark - 如何将 spark RDD 转换为 mahout DRM?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43270196/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com