gpt4 book ai didi

apache-spark - 如何从DataFrame将数据准备为LibSVM格式?

转载 作者:行者123 更新时间:2023-12-03 14:53:02 25 4
gpt4 key购买 nike

我想制作libsvm格式,所以我将数据框制作成所需的格式,但是我不知道如何转换为libsvm格式。格式如图所示。我希望所需的libsvm类型是用户item:rating。如果您知道在当前情况下该怎么做:

val ratings = sc.textFile(new File("/user/ubuntu/kang/0829/rawRatings.csv").toString).map { line =>
val fields = line.split(",")
(fields(0).toInt,fields(1).toInt,fields(2).toDouble)
}
val user = ratings.map{ case (user,product,rate) => (user,(product.toInt,rate.toDouble))}
val usergroup = user.groupByKey

val data =usergroup.map{ case(x,iter) => (x,iter.map(_._1).toArray,iter.map(_._2).toArray)}

val data_DF = data.toDF("user","item","rating")




我正在使用Spark 2.0。

最佳答案

您面临的问题可以分为以下几种:


将您的评分(我相信)转换为LabeledPoint数据X。
以libsvm格式保存X。


1.将您的评分转换为LabeledPoint数据X

让我们考虑以下原始评级:

val rawRatings: Seq[String] = Seq("0,1,1.0", "0,3,3.0", "1,1,1.0", "1,2,0.0", "1,3,3.0", "3,3,4.0", "10,3,4.5")


您可以将这些原始评级作为 coordinate list matrix (COO)处理。

Spark实现了由其条目的RDD支持的分布式矩阵: CoordinateMatrix,其中每个条目都是(i:Long,j:Long,value:Double)的元组。

注意:仅当矩阵的两个维度都很大且矩阵非常稀疏时,才应使用CoordinateMatrix。 (通常是用户/物品评分的情况。)

import org.apache.spark.mllib.linalg.distributed.{CoordinateMatrix, MatrixEntry}
import org.apache.spark.rdd.RDD

val data: RDD[MatrixEntry] =
sc.parallelize(rawRatings).map {
line => {
val fields = line.split(",")
val i = fields(0).toLong
val j = fields(1).toLong
val value = fields(2).toDouble
MatrixEntry(i, j, value)
}
}


现在让我们将 RDD[MatrixEntry]转换为 CoordinateMatrix并提取索引行:

val df = new CoordinateMatrix(data) // Convert the RDD to a CoordinateMatrix
.toIndexedRowMatrix().rows // Extract indexed rows
.toDF("label", "features") // Convert rows


2.以libsvm格式保存LabeledPoint数据

从Spark 2.0开始,您可以使用 DataFrameWriter进行操作。让我们创建一个带有一些虚拟LabeledPoint数据的小示例(您也可以使用我们之前创建的 DataFrame):

import org.apache.spark.mllib.linalg.Vectors
import org.apache.spark.mllib.regression.LabeledPoint
val pos = LabeledPoint(1.0, Vectors.dense(1.0, 0.0, 3.0))
val neg = LabeledPoint(0.0, Vectors.sparse(3, Array(0, 2), Array(1.0, 3.0)))

val df = Seq(neg,pos).toDF("label","features")


不幸的是,我们仍然不能直接使用 DataFrameWriter,因为尽管大多数管道组件都支持向后兼容以进行加载,但是可能需要将包含向量列或矩阵列的2.0之前的Spark版本中的某些现有DataFrame和管道迁移到新的spark.ml向量和矩阵类型。

mllib.linalg中可以找到将DataFrame列从 ml.linalg转换为 org.apache.spark.mllib.util.MLUtils.类型(反之亦然)的实用程序。在我们的情况下,我们需要执行以下操作(对于虚拟数据和 DataFrame中的 step 1.

import org.apache.spark.mllib.util.MLUtils
// convert DataFrame columns
val convertedVecDF = MLUtils.convertVectorColumnsToML(df)


现在让我们保存DataFrame:

convertedVecDF.write.format("libsvm").save("data/foo")


我们可以检查文件内容:

$ cat data/foo/part*
0.0 1:1.0 3:3.0
1.0 1:1.0 2:0.0 3:3.0


编辑:
在当前版本的spark(2.1.0)中,无需使用 mllib包。您可以简单地将 LabeledPoint数据保存为libsvm格式,如下所示:

import org.apache.spark.ml.linalg.Vectors
import org.apache.spark.ml.feature.LabeledPoint
val pos = LabeledPoint(1.0, Vectors.dense(1.0, 0.0, 3.0))
val neg = LabeledPoint(0.0, Vectors.sparse(3, Array(0, 2), Array(1.0, 3.0)))

val df = Seq(neg,pos).toDF("label","features")
df.write.format("libsvm").save("data/foo")

关于apache-spark - 如何从DataFrame将数据准备为LibSVM格式?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41416291/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com