gpt4 book ai didi

scala - 高效加载 CSV 坐标格式 (COO) 输入到本地矩阵 spark

转载 作者:行者123 更新时间:2023-12-04 12:51:30 27 4
gpt4 key购买 nike

我想将 CSV 坐标格式 (COO) 数据转换为本地矩阵。目前我首先将它们转换为 CoordinateMatrix然后转换为 LocalMatrix .但是有没有更好的方法来做到这一点?

示例数据:

0,5,5.486978435
0,3,0.438472867
0,0,6.128832321
0,7,5.295923198
0,1,7.738270234

代码:
var loadG = sqlContext.read.option("header", "false").csv("file.csv").rdd.map("mapfunctionCreatingMatrixEntryOutOfRow")
var G = new CoordinateMatrix(loadG)

var matrixG = G.toBlockMatrix().toLocalMatrix()

最佳答案

LocalMatrix 将存储在一台机器上,因此不会利用 Spark 的优势。换句话说,使用 Spark 似乎有点浪费,尽管仍有可能。

将 CSV 文件获取到 LocalMatrix 的最简单方法是先用 Scala 读取 CSV,而不是 Spark:

val entries = Source.fromFile("data.csv").getLines()
.map(_.split(","))
.map(a => (a(0).toInt, a(1).toInt, a(2).toDouble))
.toSeq

SparseMatrix LocalMatrix 的变体有读取COO格式数据的方法。需要指定行数和列数才能使用它。由于矩阵是稀疏的,这在大多数情况下应该手动完成,但有可能获得数据中的最高值,如下所示:
val numRows = entries.map(_._1).max + 1
val numCols = entries.map(_._2).max + 1

然后创建矩阵:
val matrixG = SparseMatrix.fromCOO(numRows, numCols, entries)

矩阵将以 CSC 格式存储在机器上。打印上面的示例输入将产生以下输出:
1 x 8 CSCMatrix
(0,0) 6.128832321
(0,1) 7.738270234
(0,3) 0.438472867
(0,5) 5.486978435
(0,7) 5.295923198

关于scala - 高效加载 CSV 坐标格式 (COO) 输入到本地矩阵 spark,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48524917/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com