c++ - 提示编译器浮点 vector 计数可以被 8 整除？-6ren

c++ - 提示编译器浮点 vector 计数可以被 8 整除？

转载作者：行者123 更新时间：2023-12-02 03:02:58

27

4

static inline void R1_sub_R0(float *vec,  size_t cnt,  float toSubtract){
    for(size_t i=0; cnt; ++i){
        vec[i] -= toSubtract;
    }
}

我知道 cnt 总是能被 8 整除，因此代码可以通过 SSE 和 AVX 进行矢量化。换句话说，我们可以将 *vec 作为 __m256 类型进行迭代。但编译器可能不知道这一点。 如何向编译器保证此计数能被 8 整除？

这样的事情会有帮助吗？ (如果我们把它放在函数的开头)

assert(((cnt*sizeof(float)) % sizeof(__m256)) ==0 );  //checks that it's "multiple of __m256 type".

当然，我可以简单地将整个事情编写为矢量化代码:

static inline void R1_sub_R0(float *vec,  size_t cnt,  float toSubtract){
    assert(cnt*sizeof(float) % sizeof(__m256) == 0);//check that it's "multiple of __m256 type".
    assert(((uintptr_t)(const void *)(POINTER)) % (16) == 0);//assert that 'vec' is 16-byte aligned

    __m256 sToSubtract = _mm256_set1_ps(toSubtract);
    __m256 *sPtr = (__m256*)vec;
    const __m256 *sEnd = (const __m256*)(vec+cnt);

    for(sPtr;  sPtr != sEnd;  ++sPtr){
        *sPtr = _mm256_sub_ps(*sPtr, sToSubtract);
    }
}

但是，它的运行速度比原始版本慢 10%。所以我只想给编译器一些额外的信息。这样它就可以更有效地矢量化代码。

最佳答案

Hint the compiler that float-vector count is divisible by 8?

您可以通过嵌套另一个循环来半展开循环:

for(size_t i=0; i < cnt; i += 8){
    for(size_t j=0; j < 8; j++){
        vec[i + j] -= toSubtract;
    }
}

编译器可以很容易地看到内部循环具有不断的迭代，并且可以展开它并可能使用 SIMD(如果它选择的话)。

Hint the compiler that float-vector count is [16-byte aligned]?

这有点棘手。

你可以使用类似的东西:

struct alignas(16) sse {
    float arr[8];
};

 // cnt is now number of structs which is 8th fraction of original cnt
R1_sub_R0(sse *vec,  size_t cnt,  float toSubtract) {
    for(size_t i=0; i < cnt; i ++){
        for(size_t j=0; j < 8; j++){
            vec[i].arr[j] -= toSubtract;
        }
    }

除此之外，还有一些编译器扩展，例如__builtin_assume_aligned，可以与普通 float 组一起使用。

关于c++ - 提示编译器浮点 vector 计数可以被 8 整除？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/58117550/

27

4

0

文章推荐： r - 使用 ggplot2 对齐子集数据点

文章推荐： c++ - C++20 中的 `constinit` 是什么？

文章推荐： Java android room 从db获取HashMap

文章推荐： java - 使用 Spring Boot 异步自定义 ThreadPoolTaskExecutor

java - 如果整数可被 3 整除，则该方法返回 true；如果整数不可被 3 整除，则返回 false
这就是我到目前为止所拥有的；我必须使用这个主要方法。 public class HW4 { public static boolean isDivisibleByThree(String n)
python - 为什么 5 能被 0.5 整除，但不能被 0.1 整除？
这个问题在这里已经有了答案: Is floating point math broken? (31 个答案) 关闭 7 年前。我不明白为什么 % 会这样: >>> 5 % 0.5 == 0 Tru
数论笔记-整除
目录整除整除的定义与基本性质素数素数的定义与基本性质
检查每个数字是否可以被 2 整除
我正在编写一个 C 程序，要求用户输入密码并检查数字中的每个数字是否可以被 2 整除。例如，如果他们输入 123452，它会告诉用户这是错误的，因为 1， 2,3,5 不能被 2 整除。如果我输入 6
检查某个东西是否能被 3 整除
我有一些东西要读取一个文本文件，然后是一个像这样的函数文件 int Myiseven(int x) { int isOdd = 0; if (x % 2 == 1) {
构造一个循环来检查一个数字的数字之和是否能被 3 整除
我需要编写一个程序，在给定的数字范围内，程序需要找到数字之和能被3整除的数字。之后，它需要检查总和是否大于0，如果它能被4整除，并打印满足上述条件的数字。这是我尝试过的: include int m
FFMPEG - 高度不能被 2 整除
我对 ffmpeg 有疑问。我想将图像序列格式化为视频。我为此使用以下命令: ffmpeg -framerate 24 -i image%04d.jpeg Project.mp4 -vf "pad=c
c - 无需使用数学运算符即可确定数字是否能被 3 整除
我把这个作业作为家庭作业，但我不知道该怎么做: Input is a string of the numbers 1, 2 and 3. You need to build a function th
java - 某个范围内的数字中的每个数字都应能被 n 整除
这里我需要检查数字中的每个数字，因为范围应该被3整除，这意味着当我输入20和40时，代码需要验证20到40之间数字的每个数字，并且它应该显示 30,33,36,39 我试图做的是获取代码的最后一位数字
c++ - 检查数组中的所有对是否都可以被 k 整除
Given an array of integers and a number k, write a function that returns true if given array can be
c++ - 检查二进制数是否能被 13 整除
如果用户输入从最高位到最低位的数字，如何检查二进制数是否可以整除 13？位数可能非常大，因此将其转换为十进制然后检查其可整除性是没有意义的。我已经以常规方式处理了它。位数最多为 10^5，因此在将
string - 删除尽可能少的数字以使数字可以被 3 整除
我正在解决这个问题，即我们给了数字 N，它可以很大，最多可以有 100000 个数字。现在我想知道找到这些数字的最有效方法是什么，我认为在大数字中我最多需要删除 3 位数字才能被 3 整除。我知道
algorithm - 二进制被 3 整除
这个问题在这里已经有了答案: 关闭 12 年前。 Possible Duplicate: Check if a number is divisible by 3 如果一个二进制数的个数是偶数，它是否
algorithm - 如何知道一个二进制数是否被 3 整除？
我想知道二进制有没有除以3的整除法则例如:在十进制中，如果数字和除以 3，则数字除以 3。例如:15 -> 1+5 = 6 -> 6 除以 3所以 15 除以 3。要了解的重要一点是，我不是在寻找
ruby :能被 4 整除
这工作正常，但我想让它更漂亮 - 并容纳所有可被 4 整除的值: if i==4 || i==8 || i==12 || i==16 || i==20 || i==24 || i==28 || i==
c# - 检查数字是否可以被 24 整除
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。要求提供代码的问题必须表现出对所解决问题的最低限度理解。包括尝试过的解决方案、为什么它们不起作用，以及预
javascript - 查找变量是否可以被 2 整除
如何判断一个变量是否可以被 2 整除？此外，如果是，我需要执行一个功能；如果不是，我需要执行另一个功能。最佳答案使用模数: // Will evaluate to true if the vari
c++ - 如何以最快的方式检查给定的数字是否可以被 15 整除？
处理器中的除法需要很多时间，所以我想问一下如何以最快的方式检查数字是否可以被其他数字整除，在我的情况下，我需要检查数字是否可以被 15 整除。我也一直在浏览网页并发现有趣方法来检查数字是否可以被
c++ - 是否可以编写一个函数模板来返回参数的数量是否可以被 N 整除？
我一直在学习可变参数模板，在 this excellent blog post 的帮助下，我已经设法编写了一个函数模板 even_number_of_args 它返回它接收到的参数的数量是否可以被 2
arrays - 排列一个整数数组，使得两个连续数字的和不能被 3 整除
我的一个 friend 在对一家公司进行在线评估时遇到了这个问题，并向我提出了这个问题。 An array of integers is given and we have to (possibly)

首页

博学

6Ren·AI

商城

c++ - 提示编译器浮点 vector 计数可以被 8 整除？