c++ - Armadillo SpMat 与 Mat 相比非常慢

转载作者：搜寻专家更新时间：2023-10-31 01:31:35

27

4

我正在尝试在 Armadillo 中使用稀疏矩阵，并且注意到 SpMat<int> 的访问时间存在显着差异与使用 Mat<int> 的等效代码相比.

描述:

下面是两种方法，除了Method_One 之外，它们在各个方面都是相同的。使用常规矩阵和 Method_Two使用稀疏矩阵。

这两种方法都采用以下参数:

WS, DS : 指向 NN 的指针维数组
WW : 13 K [ max(WS) ]
DD : 1.7 K [ max(DS) ]
NN : 230万
TT : 50

我正在使用 Visual Studio 2017 将代码编译成 .mexw64可以从 Matlab 调用的可执行文件.

代码:

void Method_One(int WW, int DD, int TT, int NN, double* WS, double* DS)
{
    Mat<int> WP(WW, TT, fill::zeros); // (13000 x 50) matrix
    Mat<int> DP(DD, TT, fill::zeros); // (1700  x 50) matrix
    Col<int> ZZ(NN, fill::zeros);     // 2,300,000 column vector

    for (int n = 0; n < NN; n++)
    {
        int w_n = (int) WS[n] - 1;
        int d_n = (int) DS[n] - 1;
        int t_n = rand() % TT;

        WP(w_n, t_n)++;
        DP(d_n, t_n)++;
        ZZ(n) = t_n + 1;
    }
    return;
}

void Method_Two(int WW, int DD, int TT, int NN, double* WS, double* DS)
{
    SpMat<int> WP(WW, TT);        // (13000 x 50) matrix
    SpMat<int> DP(DD, TT);        // (1700  x 50) matrix
    Col<int> ZZ(NN, fill::zeros); // 2,300,000 column vector

    for (int n = 0; n < NN; n++)
    {
        int w_n = (int) WS[n] - 1;
        int d_n = (int) DS[n] - 1;
        int t_n = rand() % TT;

        WP(w_n, t_n)++;
        DP(d_n, t_n)++;
        ZZ(n) = t_n + 1;
    }
    return;
}

时间:

我使用 wall_clock 对这两种方法进行计时Armadillo 中的计时器对象。例如，

wall_clock timer;
timer.tic();
Method_One(WW, DD, TT, NN, WS, DS);
double t = timer.toc();

结果:

时间已过 Method_One使用 Mat<int> : 0.091 sec
时间已过 Method_Two使用 SpMat<int> : 30.227 sec (慢了将近 300 倍)

非常感谢对此的任何见解!

更新:

此问题已通过较新的 version (8.100.1) 得到修复 Armadillo 。

这是新的结果:

时间已过 Method_One使用 Mat<int> : 0.141 sec
时间已过 Method_Two使用 SpMat<int> : 2.127 sec (慢 15 倍，这是可以接受的!)

感谢 Conrad 和 Ryan。

最佳答案

正如 hbrerkere 已经提到的，问题源于矩阵的值以打包格式 (CSC) 存储的事实，这使得它很耗时

查找已存在条目的索引:根据列条目是否按行索引排序，您需要线性搜索或二分搜索。
插入一个以前为零的值:在这里您需要找到新值的插入点并在该点之后移动所有元素，导致单次插入的最坏情况时间为 Ω(n)!

所有这些操作都是针对稠密矩阵的常量时间操作，这主要解释了运行时差异。

我通常的解决方案是使用单独的稀疏矩阵类型进行组装(您通常会多次访问一个元素)基于坐标格式(存储三元组 (i, j, value))使用像 std::map 或 std::unordered_map 这样的映射来存储对应于位置 (i,j) 的三重索引矩阵。

this question about matrix assembly 中也讨论了一些类似的方法

我最近使用的例子:

class DynamicSparseMatrix {
    using Number = double;
    using Index = std::size_t;
    using Entry = std::pair<Index, Index>;
    std::vector<Number> values;
    std::vector<Index> rows;
    std::vector<Index> cols;
    std::map<Entry, Index> map; // unordered_map might be faster,
                                // but you need a suitable hash function
                                // like boost::hash<Entry> for this.
    Index num_rows;
    Index num_cols;

    ...

    Number& value(Index row, Index col) {
        // just to prevent misuse
        assert(row >= 0 && row < num_rows);
        assert(col >= 0 && col < num_cols);
        // Find the entry in the matrix
        Entry e{row, col};
        auto it = map.find(e);
        // If the entry hasn't previously been stored
        if (it == map.end()) {
            // Add a new entry by adding its value and coordinates
            // to the end of the storage vectors.
            it = map.insert(make_pair(e, values.size())).first;
            rows.push_back(row);
            cols.push_back(col);
            values.push_back(0);
        }
        // Return the value
        return values[(*it).second];
    }

    ...

};

组装后，您可以存储来自rows、cols、values(实际上以坐标格式表示矩阵)的所有值，可能对它们进行排序并执行 batch insertion进入你的 Armadillo 矩阵。

关于c++ - Armadillo SpMat<int> 与 Mat<int> 相比非常慢，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/45469288/

27

4

0

文章推荐： c++ - 将元组分配给类成员变量

文章推荐： c++ - C++ 中 "this"的可能值是 Null 吗？

文章推荐： c++ - EGL 在第一次 opengl 函数调用时崩溃

文章推荐： c++ - 编译器会自动优化重复代码吗？

ruby-on-rails - 在*非常*简单的应用程序中呈现*非常*简单的部分的问题
更新:随意给我反对票，因为问题是我将文件命名为 _stylesheet.html.erb 而不是 _stylesheets.html.erb。我以为我检查了拼写，但显然我没有。我很抱歉浪费了大家的时间
inno-setup - 当主安装程序(非常)静默运行时，子安装程序(非常)静默运行
我有一个 Inno Script istaller 在其中运行子 setup.exe 。当向主安装程序提供静默安装参数时，我必须向 setup.exe 提供静默安装参数。 Inno脚本运行命令: [R
indexing - 在大型数据库中搜索(非常)近似子串
我正在尝试在大型数据库中搜索长的、近似的子字符串。例如，一个查询可能是一个 1000 个字符的子字符串，它可能与匹配项相差数百个编辑的 Levenshtein 距离。我听说索引 q-gram 可以做到
iphone - iPad(非常)简单的绘图
我正在尝试在我的应用程序中实现一个非常简单的绘图 View 。这只是我的应用程序的一小部分，但它正在变成一个真正的麻烦。这是我到目前为止所拥有的，但它现在显示的只是莫尔斯电码，如点和线。 - (v
MySQL 查询运行*非常*慢
我有一个运行非常慢的 sql 查询，我很困惑为什么。查询是: SELECT DISTINCT(c.ID),c.* FROM `content` c LEFT JOIN `content_meta`
python - 非常 simplejson 解码
我搜索过这个，但我发现的所有结果对我来说都毫无意义，而且似乎太复杂了。我希望使用 json 或 simplejson 模块来获取对象中字符串的值。 string = '{"name": "Alex"}
c - 如何最好地模拟(非常)稀疏的概率密度函数？
我想编写一个流量生成器来复制正在运行的计算机对内存进行的原始读写需求。但是正在运行的计算机在其内存引用中也显示出(非常强的)局部性，并且在 64 位地址空间中，只会引用非常小范围的地址(事实上，我已
java - 当您需要存储(非常)大的数字时该怎么办？
我正在尝试做一个 Project Euler问题，但它涉及添加一个非常大的数字的数字。 (100!) 用Java的int和long太小了。谢谢你的建议最佳答案类 BigInteger看起来它可能
c++ - 物理模拟给出(非常)不准确的简单轨迹微积分位置
我想在游戏中实现一个物理引擎，以便计算物体在受力时的轨迹。该引擎将根据对象的先前状态计算对象的每个状态。当然，这意味着要在两个时间单位之间进行大量计算才能足够精确。为了正确地做到这一点，我首先想知道
C 用对应于索引的值初始化一个(非常)大的整数数组
Edit3:通过将数组的初始化限制为仅奇数进行优化。谢谢@Ronnie! Edit2:谢谢大家，看来我也无能为力了。编辑:我知道 Python 和 Haskell 是用其他语言实现的，并且或多或少地
c - 无需预洗牌即可生成(非常)大的非重复整数序列
背景我有一个我编写的简单媒体客户端/服务器，我想生成一个非显而易见的时间值，我随每个命令从客户端发送到服务器。时间戳将包含相当多的数据(纳秒分辨率，即使由于现代操作系统中定时器采样的限制，它并不真正
可能有*非常*多列的 MySql 表
一位招聘软件工程师的 friend 希望我为他开发一个应用。他希望能够根据技能搜索候选人的简历。正如您想象的那样，可能有数百、可能数千种技能。在表格中表示候选人的最佳方式是什么？我在想 skil
ios - NSURLSession dataTaskWithURL 非常 "slow"
我的意思是“慢”，回调类型等待远程服务器超时以有效触发(调用 vimeo 提要，解析它，然后在场景中显示 uiviews) 我大多不明白它是如何工作的。我希望在返回响应后立即从回调中填充我的 View
具有(非常)快速和可靠切换的 C++ 生产者消费者队列
您好，我正在研究使用快速可靠的生产者消费者队列进行线程切换。我正在使用 VC++ 在 Windows 上工作。我的设计基于 Anthony Williams队列，基本上就是一个带有 boost::c
c# - 具有大或*非常*大文件的 Resharper
我只是想知道您使用 resharper 的经验。我们有一个非常重的 dbml 文件，因为我们的数据库有很多表，每次我需要打开该文件时，我都会收到来自 resharper 的大量异常。以前有人遇到过这个
jquery - 隐藏/显示*非常*慢
我目前正在使用 jQuery 中的隐藏/显示功能来帮助从选择框中将表格过滤成组。实际代码运行良好，但速度非常慢，有时需要一两分钟才能执行。我切换了代码，所以它使用 css({'display':'
c# - Application.GetWindow() *非常*慢
我按顺序调用了以下两个方法(按顺序使用适当的类级别字段) public const string ProcessName = "This is" public const string WindowT
haskell - 有人可以用*非常*简单的术语解释反射包 API 吗？
我很难理解描述反射包的文档/示例。我是一名命令式编程老手，但也是一名 Haskell 新手。你能引导我完成一个非常简单的介绍吗？包裹:https://hackage.haskell.org/pack
.net - 是否有一个*非常*轻量级的 .net IDE？
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于 Stack Overflow 来说是偏离主题的，因为
python - 使用 Python 操作(非常)长的数据文件
我正在尝试编写一段代码来操作一个很长的文档(超过一百万行)。在这个文本文件中，有固定间隔(每 1003 行)和之间的某些时间戳有我需要的数据，它有 1000 行长，还有一个标题和两个空行，但我不需要。

首页

博学

6Ren·AI

商城

c++ - Armadillo SpMat 与 Mat 相比非常慢

描述:

代码:

时间:

结果:

更新: