fortran - fortran循环的simd向量长度和展开因子-6ren

fortran - fortran循环的simd向量长度和展开因子

转载作者：行者123 更新时间：2023-12-02 16:55:16

25

4

我想使用SIMD指令矢量化下面的fortran

!DIR$ SIMD
    DO IELEM = 1 , NELEM
      X(IKLE(IELEM)) = X(IKLE(IELEM)) + W(IELEM)
    ENDDO

我使用了指令avx2。该程序由

ifort main_vec.f -simd -g -pg -O2 -vec-report6 -o vec.out -xcore-avx2 -align array32byte

然后，我想在 VECTORLENGTH(n)之后添加 SIMD子句。
如果没有这样的子句或n = 2、4，则信息不会提供有关展开系数的信息

如果n = 8、16， vectorization support: unroll factor set to 2。

我已经读过英特尔关于 vectorization support: unroll factor set to xxxx的文章，所以我想循环会展开为：

    DO IELEM = 1 , NELEM, 2
      X(IKLE(IELEM)) = X(IKLE(IELEM)) + W(IELEM)
      X(IKLE(IELEM+1)) = X(IKLE(IELEM+1)) + W(IELEM+1)
    ENDDO

然后2 X进入向量寄存器，2 W进入另一个寄存器，进行加法运算。
但是VECTORLENGTH的值如何工作？也许我不太了解向量长度的含义。

而且由于我使用avx2指令，对于 DOUBLE PRECISION类型 X，可以达到的最大长度是多少？

这是SSE2，VL = 8的循环汇编的一部分，编译器告诉我展开系数为2。但是它使用4个寄存器而不是2个寄存器。

.loc    1  114  is_stmt 1
        movslq    main_vec_$IKLE.0.1(,%rdx,4), %rsi             #114.9
..LN202:
        movslq    4+main_vec_$IKLE.0.1(,%rdx,4), %rdi           #114.9
..LN203:
        movslq    8+main_vec_$IKLE.0.1(,%rdx,4), %r8            #114.9
..LN204:
        movslq    12+main_vec_$IKLE.0.1(,%rdx,4), %r9           #114.9
..LN205:
        movsd     -8+main_vec_$X.0.1(,%rsi,8), %xmm0            #114.26
..LN206:
        movslq    16+main_vec_$IKLE.0.1(,%rdx,4), %r10          #114.9
..LN207:
        movhpd    -8+main_vec_$X.0.1(,%rdi,8), %xmm0            #114.26
..LN208:
        movslq    20+main_vec_$IKLE.0.1(,%rdx,4), %r11          #114.9
..LN209:
        movsd     -8+main_vec_$X.0.1(,%r8,8), %xmm1             #114.26
..LN210:
        movslq    24+main_vec_$IKLE.0.1(,%rdx,4), %r14          #114.9
..LN211:
        addpd     main_vec_$W.0.1(,%rdx,8), %xmm0               #114.9
..LN212:
        movhpd    -8+main_vec_$X.0.1(,%r9,8), %xmm1             #114.26
..LN213:
..LN214:
        movslq    28+main_vec_$IKLE.0.1(,%rdx,4), %r15          #114.9
..LN215:
        movsd     -8+main_vec_$X.0.1(,%r10,8), %xmm2            #114.26
..LN216:
        addpd     16+main_vec_$W.0.1(,%rdx,8), %xmm1            #114.9
..LN217:
        movhpd    -8+main_vec_$X.0.1(,%r11,8), %xmm2            #114.26
..LN218:
..LN219:
        movsd     -8+main_vec_$X.0.1(,%r14,8), %xmm3            #114.26
..LN220:
        addpd     32+main_vec_$W.0.1(,%rdx,8), %xmm2            #114.9
..LN221:
        movhpd    -8+main_vec_$X.0.1(,%r15,8), %xmm3            #114.26
..LN222:
..LN223:
        addpd     48+main_vec_$W.0.1(,%rdx,8), %xmm3            #114.9
..LN224:
        movsd     %xmm0, -8+main_vec_$X.0.1(,%rsi,8)            #114.9
..LN225:
   .loc    1  113  is_stmt 1
        addq      $8, %rdx                                      #113.7
..LN226:
   .loc    1  114  is_stmt 1
        psrldq    $8, %xmm0                                     #114.9
..LN227:
   .loc    1  113  is_stmt 1
        cmpq      $26000, %rdx                                  #113.7
..LN228:
   .loc    1  114  is_stmt 1
        movsd     %xmm0, -8+main_vec_$X.0.1(,%rdi,8)            #114.9
..LN229:
        movsd     %xmm1, -8+main_vec_$X.0.1(,%r8,8)             #114.9
..LN230:
        psrldq    $8, %xmm1                                     #114.9
..LN231:
        movsd     %xmm1, -8+main_vec_$X.0.1(,%r9,8)             #114.9
..LN232:
        movsd     %xmm2, -8+main_vec_$X.0.1(,%r10,8)            #114.9
..LN233:
        psrldq    $8, %xmm2                                     #114.9
..LN234:
        movsd     %xmm2, -8+main_vec_$X.0.1(,%r11,8)            #114.9
..LN235:
        movsd     %xmm3, -8+main_vec_$X.0.1(,%r14,8)            #114.9
..LN236:
        psrldq    $8, %xmm3                                     #114.9
..LN237:
        movsd     %xmm3, -8+main_vec_$X.0.1(,%r15,8)            #114.9
..LN238:

最佳答案

1）向量长度N是循环“向量化”后可以并行执行的许多元素/迭代（通常通过将数组X的N个元素放入单个向量寄存器中，并通过向量指令对其进行整体处理）。为简化起见，将向量长度视为此公式给出的值：

Vector Length (abbreviated VL) = Vector Register Width / Sizeof (data type)

对于AVX2，向量寄存器宽度= 256位。 Sizeof（双精度）= 8字节= 64位。从而：

Vector Length (double FP, avx2) = 256 / 64 = 4

$ DIR SIMD VECTORLENGTH（N）基本上强制编译器使用指定的向量长度（并将数组X的N个元素放入单个向量寄存器中）。而已。

2）展开和向量化关系。为简化起见，将展开和矢量化视为通常不相关（有点“正交”）的优化技术。

如果您的循环展开了M倍（M可能是2、4，..），那么这并不一定意味着使用了向量寄存器，也并不意味着您的循环在任何意义上都是并行的。相反，它的意思是原始循环迭代的M个实例已被分组为单个迭代。并且在给定的新“展开” /“展开”迭代中，旧的迭代是一个接一个地依次执行的（因此您的猜测示例绝对正确）。

展开的目的通常是使循环更“微体系结构/内存友好”。更详细地讲：通过使循环迭代更“胖”，通常可以改善CPU资源压力与Memory / Cache资源压力之间的平衡，尤其是因为展开后通常可以更有效地重用寄存器中的某些数据。

3）展开+矢量化。编译器同时对某些循环进行矢量化（VL = N）和展开（按M）的情况并不少见。结果，优化循环中的迭代数比原始循环中的迭代数小NxM倍，但是并行处理的元素数（在给定的时间点同时）将仅为N。
因此，在您的示例中，如果将循环用VL = 4向量化，并展开2，则其伪代码可能类似于：

DO IELEM = 1 , NELEM, 8
  [X(IKLE(IELEM)),X(IKLE(IELEM+2)), X(IKLE(IELEM+4)), X(IKLE(IELEM+6))] = ...
  [X(IKLE(IELEM+1)),X(IKLE(IELEM+3)), X(IKLE(IELEM+5)), X(IKLE(IELEM+7))] = ...
ENDDO

，其中方括号“对应”向量寄存器的内容。

4）展开的矢量化：

对于迭代次数相对较少的循环（尤其是在C ++中）-可能会发生展开不理想的情况，因为它部分阻止了有效的矢量化（没有足够的迭代并行执行），并且（如您从我的人工示例中看到的）必须从内存中加载数据的方式。不同的编译器具有不同的启发式方法，可以相互平衡跳闸计数，VL和展开。这就是为什么当VL小于8时在您的情况下禁用展开功能的原因
可以使用“ Intel (Vectorization) Advisor”探索行数，展开和向量长度以及适当的自动建议（尤其是在使用新的Intel C ++或Fortran编译器的情况下）之间的运行时和编译时权衡：

5）附言第三维（我不太喜欢谈论）。

如果用户请求的vectorlength大于给定硬件上的可能Vector Vector长度（例如，对于双FP的avx2平台，请指定vectorlength（16）），或者当您混合使用不同类型时，编译器可以（或不能）开始使用“虚拟向量寄存器”，然后开始进行双/四泵。 M-pumping是一种展开，但仅针对单条指令（即，抽奖导致重复单条指令，而展开则导致重复整个循环体）。您可以尝试阅读有关最近的OpenMP书中有关m-pumping的信息，例如 one。因此，在某些情况下，您可能会遇到以下问题：a）向量化，b）展开和c）双重泵浦，但是这种情况并不常见，我会避免强制vectorlength> 2 * ISA_VectorLength。

关于fortran - fortran循环的simd向量长度和展开因子，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/32067818/

25

4

0

文章推荐： javascript - 在 AngularJS 中使用工厂显示数据

r - (因子)数据帧列的小写
我有这种格式的data.frame: 'data.frame': 244 obs. of 1 variable: $ names: Factor w/ 244 levels "ERA","BA
Java查询求解拉伸(stretch)因子
这就是问题: write a Java Program that accepts a String and an integer stretch factor P as parameters and
r - 基于另一列的 block 因子
该示例显示了不同工厂的产量测量值，第一列表示工厂最后一列是生产量。 factory % mutate(factory=fct_lump(factory,2)) factory produc
r - 分类变量(因子)与虚拟变量的区别
我正在使用分类变量运行回归并遇到 this question .在这里，用户想要为每个虚拟对象添加一列。这让我很困惑，因为我虽然列有很长的数据，包括使用 as.factor() 存储的所有虚拟数据。相
r - 修改 R 因子？
假设在 R 中有一个 Data.Frame 对象，其中所有字符列都已转换为因子。然后我需要“修改”与数据帧中某一行相关联的值——但将其编码为一个因子。我首先需要提取一行，所以这就是我正在做的。这是一个
r - 计算一个数字(因子)在每组中出现的次数
利用下面的可重现数据， dat head(dat) Bin Number 1 1 3 2 1 5 3 1 4 4 1 5 5 1
R:删除具有预定出现频率和自动更新因子水平的变量(因子)的行
我有一组包含多个变量的数据。其中一个变量 - 阶乘包含组的名称 - A、B、C 等。其余变量是数字。 > data1 Group Value 1 A 23 2 A
r - 虚拟变量到 R 中的单个分类变量(因子)
我有一组编码为二项式的变量。 Pre VALUE_1 VALUE_2 VALUE_3 VALUE_4 VALUE_5 VALUE_6 VALUE_7 VALUE_8 1 1 0
r - 将各种虚拟/逻辑变量从 R 中的名称转换为单个分类变量/因子
我的问题与 this one 非常相似和 this other one ，但我的数据集有点不同，我似乎无法使这些解决方案起作用。如果我误解了什么并且这个问题是多余的，请原谅。我有一个这样的数据集:
r - ggplot2 因子 x 变量打破 geom_area
我一直在尝试生成一个带有离散 x 变量的堆积面积图(因为我想显示财政年度，即“2013/14”，而不是日历年)。但是，将 x 轴变量转换为一个因子会阻止在最终图表中呈现 geom。有解决办法吗？ l
java - 具有 1.0 maxLoad 因子、时间复杂度的哈希表
只是一个简单的问题来确认我的想法，使用负载因子 1.0 的哈希表的复杂性将是二次时间，用以下符号 O(n^2) 表示。这是因为必须不断调整大小并一遍又一遍地插入。如果我错了，请纠正我。谢谢最佳
r - 因子 MSZoning 具有新级别 NA(数据中有新因子，但线性回归模型中没有)
我正在尝试使用 kaggle 的一些数据集进行房价预测。这是我的代码 library(ggplot2) dataset=read.csv('train(1).csv') dataset_test=r
javascript - 如何构建操纵 DOM 的 Angular 因子/服务
我正在用 Angular 构建一个类似咆哮的 UI。我想将其公开为工厂(或服务)，以使其在我的 Controller 中可用。调用 Growl.add 将导致 DOM 发生变化，所以看起来我应该有一个
python - 将 Pandas Dataframe 列转换为 R 因子
我正在尝试将 pandas 数据框的一列转换为因数，因为我试图在 R 中调用的函数需要因数。 pandas2ri.activate() #second column of labels has
R plotly x 轴字符/因子(组合数字和 -)。绘图仅显示仅包含数字的轴。漏洞？
我正在尝试使用 plotly 绘制一个以字符串(组合数)作为 x 轴的条形图。 (“1”、“2”、“3”、“4 - 5”、“6 - 8”、“9 - 13”、“14 - 21”、“22 - 34”、“3
因子()和 NAs 的 R caret/rfe 变量选择
我有一个包含 NA 的数据集。此外，它还有一些列需要factors()。我正在使用 caret 包中的 rfe() 函数来选择变量。似乎 rfe() 中的 functions= 参数使用 lmF
r - 如何防止 write.csv 将 POSIXct、日期和时间类更改回字符/因子？
我有一个 .csv 文件，其中每个字段用于日期时间、日期和时间。最初它们都是字符字段，我已经相应地转换了它们。在我的代码结束时，如果我这样做: str(data) 我会得到 datetime: P
r - R 中的 NaiveBayes 无法预测 - 因子 (0) 级别 :
我有一个如下所示的数据集: data.flu data.flu chills runnyNose headache fever flu 1 1 0 M
c++ - QMainWindow::splitDockWidget 的 QDockWidget 拉伸(stretch)因子？
我正在使用 QMainWindow 在 C++ 中手动布置 Qt 应用程序。我希望在屏幕底部有两个并排停靠的小部件，但我希望它们具有不成比例的宽度。目前，我只能让它们具有相同的宽度。有没有办法设置拉伸
java - 使用 Java 计算 MOS、抖动和 R 因子
我需要通过在两个主机(2 个 Java 进程)之间发送合成调用来计算 VOIP 质量。我应该找出 MOS、抖动和 R 因子(VOIP 质量指标)。根据目前的研究，我发现我应该在两台主机之间发送 RTP

首页

博学

6Ren·AI

商城

fortran - fortran循环的simd向量长度和展开因子