gpt4 book ai didi

scala - 如何将 map 转换为 Spark 的 RDD

转载 作者:行者123 更新时间:2023-12-04 14:26:11 26 4
gpt4 key购买 nike

我有一个数据集,它是一些嵌套映射的形式,它的 Scala 类型是:

Map[String, (LabelType,Map[Int, Double])]

第一 String key 是每个样本的唯一标识符,value 是一个包含标签(-1 或 1)的元组,以及一个嵌套映射,它是与样本关联的非零元素的稀疏表示。

我想将此数据加载到 Spark(使用 MUtil)并训练和测试一些机器学习算法。

使用LibSVM的稀疏编码将这些数据写入文件中很容易,然后将其加载到Spark中:
writeMapToLibSVMFile(data_map,"libsvm_data.txt") // Implemeneted some where else
val conf = new SparkConf().setAppName("DecisionTree").setMaster("local[4]")
val sc = new SparkContext(conf)

// Load and parse the data file.
val data = MLUtils.loadLibSVMFile(sc, "libsvm_data.txt")
// Split the data into training and test sets
val splits = data.randomSplit(Array(0.7, 0.3))
val (trainingData, testData) = (splits(0), splits(1))

// Train a DecisionTree model.

我知道直接加载 data 应该很容易来自 data_map 的变量,但我不知道如何。

任何帮助表示赞赏!

最佳答案

我猜你想要这样的东西

import org.apache.spark.rdd.RDD
import org.apache.spark.mllib.linalg.Vectors
import org.apache.spark.mllib.regression.LabeledPoint

// If you know this upfront, otherwise it can be computed
// using flatMap
// trainMap.values.flatMap(_._2.keys).max + 1
val nFeatures: Int = ???

val trainMap = Map(
"x001" -> (-1, Map(0 -> 1.0, 3 -> 5.0)),
"x002" -> (1, Map(2 -> 5.0, 3 -> 6.0)))

val trainRdd: RDD[(String, LabeledPoint)] = sc
// Convert Map to Seq so it can passed to parallelize
.parallelize(trainMap.toSeq)
.map{case (id, (labelInt, values)) => {

// Convert nested map to Seq so it can be passed to Vector
val features = Vectors.sparse(nFeatures, values.toSeq)

// Convert label to Double so it can be used for LabeledPoint
val label = labelInt.toDouble

(id, LabeledPoint(label, features))
}}

关于scala - 如何将 map 转换为 Spark 的 RDD,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32080708/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com