gpt4 book ai didi

c++ - 使用 R 和 Rcpp,如何将两个稀疏 Matrix::csr/csc 格式的矩阵相乘?

转载 作者:行者123 更新时间:2023-12-04 03:34:22 24 4
gpt4 key购买 nike

以下代码按预期工作:

矩阵.cpp

// [[Rcpp::depends(RcppEigen)]]

#include <RcppEigen.h>

// [[Rcpp::export]]
SEXP eigenMatTrans(Eigen::MatrixXd A){
Eigen::MatrixXd C = A.transpose();

return Rcpp::wrap(C);
}

// [[Rcpp::export]]
SEXP eigenMatMult(Eigen::MatrixXd A, Eigen::MatrixXd B){
Eigen::MatrixXd C = A * B;

return Rcpp::wrap(C);
}

// [[Rcpp::export]]
SEXP eigenMapMatMult(const Eigen::Map<Eigen::MatrixXd> A, Eigen::Map<Eigen::MatrixXd> B){
Eigen::MatrixXd C = A * B;

return Rcpp::wrap(C);
}

这是对矩阵使用 C++ 特征类,参见 https://eigen.tuxfamily.org/dox

在 R 中,我可以访问这些函数。

library(Rcpp);
Rcpp::sourceCpp('matrix.cpp');

A <- matrix(rnorm(10000), 100, 100);
B <- matrix(rnorm(10000), 100, 100);
library(microbenchmark);

microbenchmark(eigenMatTrans(A), t(A), A%*%B, eigenMatMult(A, B), eigenMapMatMult(A, B))

这表明 R 在求取(转置)方面表现相当出色。乘法与 eigen 有一些优势。

使用 Matrix 库,我可以将普通矩阵转换为稀疏矩阵。

示例来自 https://cmdlinetips.com/2019/05/introduction-to-sparse-matrices-in-r/

library(Matrix);
data<- rnorm(1e6)
zero_index <- sample(1e6)[1:9e5]
data[zero_index] <- 0
A = matrix(data, ncol=1000)

A.csr = as(A, "dgRMatrix");
B.csr = t(A.csr);

A.csc = as(A, "dgCMatrix");
B.csc = t(A.csc);

因此,如果我想使用特征值将 A.csr 乘以 B.csr,如何在 C++ 中执行此操作?如果不需要,我不想转换类型。这是内存大小的事情。

A.csr %*% B.csr 尚未实现。A.csc %*% B.csc 正在运行。

我想对不同的选项进行微基准测试,看看矩阵大小如何最有效。最后,我将得到一个稀疏度约为 1% 且具有 500 万行和列的矩阵 ...

最佳答案

dgRMatrix 叉积函数尚未实现是有原因的,事实上,它们不应该被实现,否则它们会导致不良做法。

使用稀疏矩阵时需要考虑一些性能方面的问题:

  • 根据主要边缘方向访问边缘 View 效率非常低。例如,dgRMatrix 中的列迭代器和 dgCMatrix 中的行迭代器需要循环遍历矩阵的几乎所有元素,以找到仅在该列或行中的元素。看这个Rcpp gallery post以获得更多启发。
  • 矩阵叉积只是所有列组合之间的点积。这意味着在 dgRMatrix 中使用列迭代器(相对于在 dgCMatrix 中使用列迭代器)的代价会乘以列组合的数量。
  • R 中的叉积函数经过高度优化,并且(根据我的经验)并不明显快于 Eigen、Armadillo 等同的 STL 变体。它们是并行化的,Matrix 包充分利用了这些优化算法。我已经使用 Rcpp 结构编写了 C++ 并行化 STL 叉积变体,但我没有看到任何性能提升。
  • 如果您真的要走这条路,请查看我的 Rcpp gallery在 Rcpp 中发布稀疏矩阵结构。如果内存是一个问题,这将优于 Eigen 和 Armadillo 稀疏矩阵,因为 Eigen 和 Armadillo 执行深复制而不是对内存中已存在的 R 对象的引用。
  • 在 1% 的密度下,行迭代器的低效率将大于 5% 或 10% 的密度。我的大部分测试都是在 5% 的密度下进行的,一般情况下,行迭代器的二元运算比列迭代器花费的时间长 5-10 倍。

可能存在行优先顺序闪耀的应用程序(即参见 Dmitry Selivanov 在 CSR 矩阵和 irlba svd 上的工作),但这绝对不是其中之一,事实上,这么多,所以你最好在-进行转换以得到 CSC 矩阵。

tl;dr:行优​​先矩阵中的列叉积是无效率的最后通牒。

关于c++ - 使用 R 和 Rcpp,如何将两个稀疏 Matrix::csr/csc 格式的矩阵相乘?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/67225377/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com