c++ - Eigen:如何防止大对象的额外拷贝；分配给结果而不实现 RHS 上的完整矩阵-6ren

c++ - Eigen:如何防止大对象的额外拷贝；分配给结果而不实现 RHS 上的完整矩阵

转载作者：行者123 更新时间：2023-11-30 03:37:42

24

4

如果其中一些是我未能理解的基本 C++，我提前道歉。

在展示我的代码之前，让我解释一下我想要完成的事情。我有一个稀疏矩阵 U 和一个 vector r，我想计算 (U-r)(U-r)'，其中减法是针对 U 的每一列。

但是，我无法一次完成所有操作，因为 U-r 非常密集并且内存使用量激增(大约 700 万列与大约 20,000 行)。

利用外积 XX' 可以一次计算一列的事实，XX' == sum(XcXc')，其中 sum 是矩阵加法，我的策略是取几列，做减法和外积并累加结果。一次仅使用几列可将内存使用量降低到非常合理的数量(几百 MB)。

从表面上看，这需要 2 份 20,000 x 20,000 矩阵(每个 3.5 GB)，一份用于累积结果，一份用于临时右侧。但是，由于我不明白的原因，根据观察到的内存使用情况，我有 3 个拷贝。

因为我想尽可能多地并行化此操作(这非常昂贵)，所以减少内存使用量至关重要。

所以，第 1 步是让我从 3 份到 2 份。

如果可能的话，第 2 步是要认识到没有理由永远不需要在 RHS 上实现结果。也就是说，没有理由不继续将计算结果添加到累加矩阵的每个元素，而不是在 RHS 上创建一个临时矩阵，然后执行累加器矩阵的加法。

第 3 步是利用生成对称矩阵这一事实来减少计算时间。我认为这是通过 .selfadjointView(Lower) 完成的，但我无法准确解析如何在一致的基础上继续这样做。

最后是代码。我在 R 中进行并行化，这段代码只代表一个并行化过程。我正在传递要计算的列索引的连续 vector 列表。

// [[Rcpp::depends(RcppEigen)]] 
#include <iostream>
#include "Rcpp.h"
#include "RcppEigen.h"
#include "Eigen/Dense"
#include "Eigen/Sparse"

using Eigen::MatrixXd;

typedef Eigen::MappedSparseMatrix<double> MSpMat;
typedef Eigen::Map<Eigen::VectorXd> MVec;
typedef Eigen::Map<MatrixXd> MMat;



/*
 * tcrossprod_cpp just compute X * X' where X is a matrix, * is matrix
 * multiplication and ' is transpose, but in an efficient manner,
 * although it appears that R's tcrossprod is actually faster. Pulled it from
 * the RcppEigen book.
 */


MatrixXd tcrossprod_cpp(const MatrixXd &U) {
    const long m(U.rows());
    MatrixXd UUt(MatrixXd(m, m).setZero().
            selfadjointView<Eigen::Lower>().rankUpdate(U));
    return UUt;
}

// [[Rcpp::export]]
MatrixXd gen_Sigma_cpp_block_sp(const Rcpp::List &col_list, const MSpMat &U,
                                const MVec &r, int index1 = 1) {
    long nrow = U.rows();
    MatrixXd out = MatrixXd::Constant(nrow, nrow, 0.0);
    long ncol;
    Rcpp::IntegerVector y;
    for (long i = 0; i < col_list.size(); i++) {
        if (i % 10 == 0) {
            Rcpp::checkUserInterrupt();
        }
        y = col_list[i];
        ncol = y[y.size() - 1] - y[0] + 1;
        out.noalias() += tcrossprod_cpp((MatrixXd (U.block(0, y[0] - index1,
                                         nrow, ncol))).colwise() - r);
    }
    return out;
}

最佳答案

你应该重写你的表达。从数学上讲，从 U 的每一列中减去 r 与 U - r*ones 相同(其中 ones 是列数与 U 相同的行 vector )。扩展为您提供:

(U-r*ones)*(U-r*ones)^T = U*U^T - (U*ones^T)*r^T - r*(ones*U^T) + r*(ones*ones^T)*r^T

ones*ones^T等于U.cols()，U*ones^T可以计算为 U*VectorXd::Ones(U.cols()) 并存储到一个密集 vector 中。剩余的操作是 U*U.transpose() 的一个稀疏乘积(您可以直接将其存储到密集矩阵中，因为您的最终结果将是密集的，然后是两个等级更新:

VectorXd Usum = U * VectorXd::Ones(U.cols()); // sum of columns of U
MatrixXd result = U*U.transpose();
result.selfadjointView<Lower>().rankUpdate(Usum, r, -1.0);
result.selfadjointView<Lower>().rankUpdate(r,U.cols());

回答关于额外临时工的问题:在 tcrossprod_cpp 中，您创建了一个临时的 MatrixXd(m,m) 并将结果存储到 MatrixXd UUt 中。你其实完全可以避免这种方法，直接写

out.selfadjointView<Lower>().rankUpdate(MatrixXd(U.block(0, y[0] - index1,
                                     nrow, ncol))).colwise() - r);

编辑:在 Eigen 3.3(我正在测试 3.3rc1)之前，将稀疏乘积直接分配给密集矩阵显然是不可能的。如果可能的话，我建议切换到 3.3 版(还有许多其他改进)。

关于c++ - Eigen:如何防止大对象的额外拷贝；分配给结果而不实现 RHS 上的完整矩阵，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/40062125/

24

4

0

文章推荐： android - Android有没有可访问的错误日志

文章推荐： java - 搜索数组列表

文章推荐：整个应用程序的 Android 上下文

JAVA技术实现上传下载文件到FTP服务器(完整)
具体详细介绍请看下文：在使用文件进行交互数据的应用来说，使用FTP服务器是一个很好的选择。本文使用Apache Jakarta Commons Net（commons-net-3.3.jar）
jetty HttpParser 完整
我在日志文件中收到这些警告: WARN 2013-01-15 00:08:15,550 org.eclipse.jetty.http.HttpParser- HttpParser Full for
javascript - 在浏览器中查看源代码时显示的源代码是否始终准确/完整？
我在使用特定网页时遇到问题。当我按下链接时，我收到应用程序错误(不是 http 错误等，而是应用程序级别错误)。但是我打开了开发人员工具和网络控制台，我看到没有请求发送到服务器。所以我双击并选择查
c - 此汇编函数调用是否安全/完整？
我没有组装经验，但这是我一直在做的。如果在通过程序集中的指针传递参数和调用函数时缺少任何基本方面，我希望输入。例如，我想知道是否应该还原ecx，edx，esi，edi，。我读到它们是通用寄存器，但我
c - 此汇编函数调用是否安全/完整？
我没有组装经验，但这是我一直在做的。如果在通过程序集中的指针传递参数和调用函数时缺少任何基本方面，我希望输入。例如，我想知道是否应该还原ecx，edx，esi，edi，。我读到它们是通用寄存器，但我
ios - 完整 UIScrollView 的快照
我正在尝试创建完整 uiscrollview 的快照，所有内容大小，我已经搜索了很多，并且我在 SO 上找到了一些东西，如下所示: Getting a screenshot of a UIScroll
java - 修改其副本时保持原始 Vector 完整
我想复制一个包含以下结构的Vector，对我来说重要的是在修改复制的 vector 时保持原始Vector完整: public class objet_poid_n { public int
python - 按分隔符分割时保持引用 block 完整
给定一个示例字符串 s = '嗨，我的名字是 Humpty-Dumpty，来自“爱丽丝，爱丽丝镜中奇遇记”'，我想将其分成以下 block : # To Do: something like {l =
bash - 寻找库来连接相对/完整 url。
已关闭。此问题旨在寻求有关书籍、工具、软件库等的建议。不符合Stack Overflow guidelines .它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以
python - 完整 Linux 文件路径的正则表达式
我正在尝试创建一个正则表达式来查找文本中的 Linux 文件路径，但是正则表达式对我来说非常陌生。我有下面的代码片段，它将识别下面文件结构的开头。 .*(/bin/|/home/).* 完成正则表达式
php - 如何在不下载(完整)的情况下确定图像的大小？
我正在寻找远程托管的 JPG 的尺寸、宽度和高度。我已经了解了如何通过下载完整图像来执行此操作。但是，如果我可以通过仅下载足以获取此信息的方式来做到这一点，那将是理想的。典型的图像大小为 200K
Python:如何获取我所在函数的*完整*名称
有没有办法让下面的代码: import traceback def log(message): print "%s: %s" %(traceback.extract_stack()[0:-1]
c# - 完整 Windows 桌面的实时视频处理
关闭。这个问题需要更多focused .它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题 editing this post . 关闭 3 年前。 Improve this qu
git - 仅显示修订中更改的(完整)文件名
git show 显示了修订版中所做的所有更改。但是，它会打印出所有更改——而不仅仅是文件名。 git show --stat 只显示文件名，但它把它们截断了!有没有办法获得已更改文件名的完整列表？
language-agnostic - 面向*完整*初学者的奖励代码项目
Closed. This question does not meet Stack Overflow guidelines。它当前不接受答案。想要改善这个问题吗？更新问题，以便将其作为on-topi
get_absolute_url 中的 Django 完整 url
当我在模板中调用我的模型 get_absolute_url 方法时，我想要一个绝对/完整的 url。在我的入门模型中，我有以下内容: def get_absolute_url(self): r
jquery - animate 的回调函数(完整)在开始时执行？
我正在使用 jQuery 1.5.1 这是我的代码: $('.cellcontent').animate({ left: '-=190'}, { easing: alert('start
javascript - 完整 d3 图表的故障/消失
我正在使用下面的方法删除条形图并使用新数据更新条形图，但这样做时出现了一个小故障/完整的图表消失 1 秒，直到加载新数据。但是是否可以通过仅增加/减少柱形而不实际消失图表来实现相同的目的。 d3.se
generics - 完整、高效的 NumericLiteral 模块实现
基于 this question 中的讨论，任何人都可以提供代码或代码链接，显示 NumericLiteralX 模块的完整实现(例如 this one )？我对 NumericLiteralX 模块
java - 检索正确(完整)的 html
我的目标是检索网站的 html，并将其转换为可读的String。我下面的代码可以工作，但我遇到了一个技术问题:当我尝试检索 http://time.gov/HTML5 的 html 时，我在 andr

首页

博学

6Ren·AI

商城

c++ - Eigen:如何防止大对象的额外拷贝；分配给结果而不实现 RHS 上的完整矩阵