c++ - 优化稀疏下三角线性系统的反向求解-6ren

c++ - 优化稀疏下三角线性系统的反向求解

转载作者：行者123 更新时间：2023-12-01 12:32:17

27

4

我有 n x n 下三角矩阵 A 的压缩稀疏列 (csc) 表示，主对角线上有零，并且想求解 b

(A + I)' * x = b

这是我计算这个的例程:

void backsolve(const int*__restrict__ Lp,
               const int*__restrict__ Li,
               const double*__restrict__ Lx,
               const int n,
               double*__restrict__ x) {
  for (int i=n-1; i>=0; --i) {
      for (int j=Lp[i]; j<Lp[i+1]; ++j) {
          x[i] -= Lx[j] * x[Li[j]];
      }
  }
}

因此， b通过参数 x 传入，并被解覆盖。 Lp , Li , Lx分别是稀疏矩阵的标准 csc 表示中的行、索引和数据指针。这个函数是程序中的顶级热点，用行

x[i] -= Lx[j] * x[Li[j]];

花费的大部分时间。编译 gcc-8.3 -O3 -mfma -mavx -mavx512f给

backsolve(int const*, int const*, double const*, int, double*):
        lea     eax, [rcx-1]
        movsx   r11, eax
        lea     r9, [r8+r11*8]
        test    eax, eax
        js      .L9
.L5:
        movsx   rax, DWORD PTR [rdi+r11*4]
        mov     r10d, DWORD PTR [rdi+4+r11*4]
        cmp     eax, r10d
        jge     .L6
        vmovsd  xmm0, QWORD PTR [r9]
.L7:
        movsx   rcx, DWORD PTR [rsi+rax*4]
        vmovsd  xmm1, QWORD PTR [rdx+rax*8]
        add     rax, 1
        vfnmadd231sd    xmm0, xmm1, QWORD PTR [r8+rcx*8]
        vmovsd  QWORD PTR [r9], xmm0
        cmp     r10d, eax
        jg      .L7
.L6:
        sub     r11, 1
        sub     r9, 8
        test    r11d, r11d
        jns     .L5
        ret
.L9:
        ret

根据 vtune 的说法，

vmovsd  QWORD PTR [r9], xmm0

是最慢的部分。我几乎没有 assembly 经验，不知道如何进一步诊断或优化此操作。我尝试使用不同的标志进行编译以启用/禁用 SSE、FMA 等，但没有任何效果。

处理器:至强 Skylake

问题我可以做些什么来优化这个功能？

最佳答案

这应该在很大程度上取决于矩阵的精确稀疏模式和所使用的平台。我用 gcc 8.3.0 测试了一些东西和编译器标志 -O3 -march=native (在我的 CPU 上是 -march=skylake)在 this matrix 的下三角形上维度为 3006，具有 19554 个非零条目。希望这有点接近您的设置，但无论如何我希望这些可以让您知道从哪里开始。

我使用的时间安排 google/benchmark与 this source file .它定义了 benchBacksolveBaseline它对问题和 benchBacksolveOptimized 中给出的实现进行了基准测试它对建议的“优化”实现进行了基准测试。还有benchFillRhs它分别对两者中使用的函数进行基准测试，以便为右侧生成一些并非完全无关紧要的值。要获得“纯”反向求解的时间，即 benchFillRhs 的时间需要减去。

1.严格向后迭代

实现中的外循环向后迭代列，而内循环向前迭代当前列。似乎向后遍历每一列也会更加一致:

for (int i=n-1; i>=0; --i) {
    for (int j=Lp[i+1]-1; j>=Lp[i]; --j) {
        x[i] -= Lx[j] * x[Li[j]];
    }
}

这几乎没有改变程序集( https://godbolt.org/z/CBZAT5 )，但基准时间显示了可衡量的改进:

------------------------------------------------------------------
Benchmark                        Time             CPU   Iterations
------------------------------------------------------------------
benchFillRhs                  2737 ns         2734 ns      5120000
benchBacksolveBaseline       17412 ns        17421 ns       829630
benchBacksolveOptimized      16046 ns        16040 ns       853333

我认为这是由某种更可预测的缓存访问引起的，但我没有进一步研究它。

2. 减少内循环中的加载/存储

由于 A 是下三角，我们有 i < Li[j] .因此我们知道 x[Li[j]]不会因 x[i]的变化而变化在内循环中。我们可以通过使用临时变量将这些知识放入我们的实现中:

for (int i=n-1; i>=0; --i) {
    double xi_temp = x[i];
    for (int j=Lp[i+1]-1; j>=Lp[i]; --j) {
        xi_temp -= Lx[j] * x[Li[j]];
    }
    x[i] = xi_temp;
}

这使得 gcc 8.3.0将存储从内部循环内部移动到内存，直接在其结束之后( https://godbolt.org/z/vM4gPD )。我的系统上测试矩阵的基准测试显示了一个小的改进:

------------------------------------------------------------------
Benchmark                        Time             CPU   Iterations
------------------------------------------------------------------
benchFillRhs                  2737 ns         2740 ns      5120000
benchBacksolveBaseline       17410 ns        17418 ns       814545
benchBacksolveOptimized      15155 ns        15147 ns       887129

3.展开循环

虽然 clang在第一个建议的代码更改后，已经开始展开循环， gcc 8.3.0还没有。因此，让我们通过额外传递 -funroll-loops 来尝试一下。 .

------------------------------------------------------------------
Benchmark                        Time             CPU   Iterations
------------------------------------------------------------------
benchFillRhs                  2733 ns         2734 ns      5120000
benchBacksolveBaseline       15079 ns        15081 ns       953191
benchBacksolveOptimized      14392 ns        14385 ns       963441

请注意，基线也有所改进，因为该实现中的循环也已展开。我们的优化版本也从循环展开中受益，但可能没有我们喜欢的那么多。查看生成的程序集( https://godbolt.org/z/_LJC5f )，它看起来像 gcc 8 次展开可能走得有点远。对于我的设置，我实际上只需一个简单的手动展开就可以做得更好。所以放下旗帜 -funroll-loops再次并使用以下内容实现展开:

for (int i=n-1; i>=0; --i) {
    const int col_begin = Lp[i];
    const int col_end = Lp[i+1];
    const bool is_col_nnz_odd = (col_end - col_begin) & 1;
    double xi_temp = x[i];
    int j = col_end - 1;
    if (is_col_nnz_odd) {
        xi_temp -= Lx[j] * x[Li[j]];
        --j;
    }
    for (; j >= col_begin; j -= 2) {
        xi_temp -= Lx[j - 0] * x[Li[j - 0]] +
                   Lx[j - 1] * x[Li[j - 1]];
    }
    x[i] = xi_temp;
}

我用它来衡量:

------------------------------------------------------------------
Benchmark                        Time             CPU   Iterations
------------------------------------------------------------------
benchFillRhs                  2728 ns         2729 ns      5090909
benchBacksolveBaseline       17451 ns        17449 ns       822018
benchBacksolveOptimized      13440 ns        13443 ns      1018182

其他算法

所有这些版本仍然在稀疏矩阵结构上使用相同的简单后向求解实现。本质上，在像这样的稀疏矩阵结构上操作可能会在内存流量方面存在重大问题。至少对于矩阵分解，有更复杂的方法，可以对从稀疏结构组装的密集子矩阵进行操作。例子是超节点和多前沿方法。我对此有点模糊，但我认为这些方法也将这个想法应用于布局并使用密集矩阵运算进行下三角向后求解(例如 Cholesky 型分解)。因此，如果您没有被迫坚持直接适用于稀疏结构的简单方法，那么研究这些方法可能是值得的。参见例如 this survey通过戴维斯。

关于c++ - 优化稀疏下三角线性系统的反向求解，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/60232977/

27

4

0

文章推荐： java - 如何使线性布局出现在 GridView 中？

文章推荐： java - 流口水时比较工作内存中的对象(事实)

文章推荐： c++ - acosl 不在 std 命名空间中？

list - 反向/回文的递归Prolog谓词
我能否获得一个具有两个参数的递归Prolog谓词，称为反向，它返回列表的反向: 示例查询和预期结果: α-反向([a，b，c]，L)。 L = [c，b，a]。由两个称为palindrome的参数组
pandas - 反向 get_dummies()
在使用 get_dummies() 将分类数据转换为数字数据后，我的数据框看起来像这样 score1 score2 country_CN country _AU category_leader ca
SQL 反向 LIKE
我有一张 table ，上面有一个国家/地区列表。说这些国家之一是“马其顿” 如果搜索“马其顿共和国”，什么 SQL 查询会返回“马其顿”记录？我相信在 linq 中它会是这样的 var count
sql - (反向)递归查询
我们有一个角色继承结构，它假设每个人都默认获得最低级别的角色，而不是最高级别的过滤，如下图所示: role.Everyone //lowest level; everyone gets this ro
jQuery $.each() 反向/向后迭代
我正在使用 $.each() 解析数组，但在其中，我使用 .splice() 方法，因此我需要向后迭代。这可能吗？ var store = [...]; //... var rules = [...]
php - 反向 SPLObjectStorage
我有一个 SPLObjectStorage 对象，其中 Player 对象作为键，分数作为与之关联的信息。玩家对象按照从最高分到最低分的顺序添加到存储中，但我现在需要以相反的顺序遍历它们。我还需要能
Prolog:反向([]，A)与反向(A，[])
我无法理解这一点:如果我给 Prolog reverse([], A). 它工作得很好，如果我给它 reverse(A, [] ). 并根据第一个建议回答 ; 它挂起!为什么？ (GNU Prolog
php - 反向 SPLObjectStorage
我有一个 SPLObjectStorage 对象，其中 Player 对象作为键，分数作为与之关联的信息。玩家对象按照从最高分到最低分的顺序添加到存储中，但我现在需要以相反的顺序遍历它们。我还需要能
java - 反向 HashMap
我有一个HashMap看起来像: HashMap playerHashMap = new HashMap<>(); 玩家是包含姓名、号码、年龄等的对象。现在我已经对它进行了排序，它看起来像这样: k
C# 反向 UrlPathEncode
我有这个: file://localhost/Volumes/Untitled%20RAID%20Set%201/Callum/iTunes/Music/Steppenwolf/Steppenwolf
C++ 反向 regex_search
我正在使用 std::regex 并希望找到与某个用户定义的正则表达式字符串匹配的字符串中的最后一个位置。例如，给定正则表达式 :.* 和字符串“test:55:last”，我想找到“:last”，
mySql - (反向)从多个表和多个关系进行左连接
有一个表 ServErog(服务)，它被重新引导到 4 个表 ServA、ServB、ServC、ServD(它们是不同的非统一服务)，其中包含 servtype(服务类型)和 type_id(来自其
Javascript 向后日期，反向？
这个问题在这里已经有了答案: What is the best way to convert date from JavaScript string in format YYYYMMDD to Ja
MySQL - 全文搜索 - 反向
我知道如何获得包含几个词的所有结果: SELECT * FROM `table` WHERE MATCH (`row`) AGAINST ('+word1 +word2' IN BOOLEAN MOD
jquery - 向下滚动 - 反向
你好，我有这个 html 代码: .container{ width: 450; height: 400; border:1px solid
CSS 过渡向后/反向
我想知道是否有任何方法可以使用相同的 CSS 过渡实例来将其向前移动然后向后/向后移动。例如，假设我有这种转变: @-webkit-keyframes fade-transition { fr
c++ - _mm_cmpistri 反向
假设我有这些字符串: char ref[30] = "1234567891234567891"; char oth[30] = "1234567891234567891"; 我想在 C++ 中使用 S
c++ - 反向 For 循环崩溃
所以我有这段代码，它使 xcode 崩溃 void strrev(const std::string& str) { for(size_t i=str.length();i>=0;i--)
Jquery 一张一张地淡入图像，反向
我正在使用下面的代码使每张图片 1 对 1 淡入淡出。我怎样才能反向执行此操作以使图片以相反的顺序加载？ img {display:none;} $('img').each(function(
android - FrameLayout 反向
我正在尝试弄清楚如何改变 FrameLayout 堆叠其子项的方式。目前它是最新的(先进先出)。我想更改它，使最新的 child 位于底部(FILO)。我试着查看 FrameLayout 的源代码，

首页

博学

6Ren·AI

商城

c++ - 优化稀疏下三角线性系统的反向求解