c - int 与短矢量化-6ren

c - int 与短矢量化

转载作者：太空宇宙更新时间：2023-11-03 23:27:54

24

4

我将以下内核向量化为整数数组:

    long valor = 0, i=0;

    __m128i vsum, vecPi, vecCi, vecQCi;

    vsum = _mm_set1_epi32(0);

    int32_t * const pA = A->data;
    int32_t * const pB = B->data;

    int sumDot[1];

    for( ; i<SIZE-3 ;i+=4){
            vecPi = _mm_loadu_si128((__m128i *)&(pA)[i] );
            vecCi = _mm_loadu_si128((__m128i *)&(pB)[i] );
            vecQCi = _mm_mullo_epi32(vecPi,vecCi);
            vsum = _mm_add_epi32(vsum,vecQCi);
    }

    vsum = _mm_hadd_epi32(vsum, vsum);
    vsum = _mm_hadd_epi32(vsum, vsum);
    _mm_storeu_si128((__m128i *)&(sumDot), vsum);

    for( ; i<SIZE; i++)
          valor += A->data[i] * B->data[i];

    valor += sumDot[0];

而且效果很好。但是，如果我将 A 和 B 的数据类型更改为 short 而不是 int，我不应该使用以下代码吗:

    long valor = 0, i=0;

    __m128i vsum, vecPi, vecCi, vecQCi;

    vsum = _mm_set1_epi16(0);

    int16_t * const pA = A->data;
    int16_t * const pB = B->data;

    int sumDot[1];

    for( ; i<SIZE-7 ;i+=8){
            vecPi = _mm_loadu_si128((__m128i *)&(pA)[i] );
            vecCi = _mm_loadu_si128((__m128i *)&(pB)[i] );
            vecQCi = _mm_mullo_epi16(vecPi,vecCi);
            vsum = _mm_add_epi16(vsum,vecQCi);
    }

    vsum = _mm_hadd_epi16(vsum, vsum);
    vsum = _mm_hadd_epi16(vsum, vsum);
    _mm_storeu_si128((__m128i *)&(sumDot), vsum);

    for( ; i<SIZE; i++)
          valor += A->data[i] * B->data[i];

    valor += sumDot[0];

第二个内核不起作用，我不知道为什么。我知道第一种和第二种情况下 vector 的所有条目都是相同的(也没有溢出)。有人可以帮我找出错误吗？

谢谢

最佳答案

这是我看到的一些事情。

在 int 中和 short情况下，当您存储 __m128 时至 sumDot , 你使用 _mm_storeu_si128在比 128 位小得多的目标上。这意味着你一直在破坏内存，幸运的是你没有被咬伤。
- 与此相关，因为sumDot是一个 int[1]即使在 short案例，你存储了两个 short合二为一int , 然后将其读作 int .
在short万一你错过了一个水平 vector 减少步骤。请记住，现在您有 8 short s 每个 vector ，您现在必须有 log_2(8) = 3 个 vector 缩减步骤。
```
vsum = _mm_hadd_epi16(vsum, vsum);
vsum = _mm_hadd_epi16(vsum, vsum);
vsum = _mm_hadd_epi16(vsum, vsum);
```
(可选)既然您已经在使用 SSE4.1，不妨使用它的优点之一:PEXTR*指示。他们获取要提取的车道的索引。您对底部泳道(泳道 0)感兴趣，因为那是 vector 缩减后总和结束的地方。 <罢工>
<罢工>
```
/* 32-bit */
sumDot[0] = _mm_extract_epi32(vsum, 0);
/* 16-bit */
sumDot[0] = _mm_extract_epi16(vsum, 0);
```
<罢工> 编辑:显然编译器不会对用_mm_extract_epi16 提取的16 位字进行符号扩展。 .您必须自己说服它这样做。
```
/* 32-bit */
sumDot[0] = (int32_t)_mm_extract_epi32(vsum, 0);
/* 16-bit */
sumDot[0] = (int16_t)_mm_extract_epi16(vsum, 0);
```
EDIT2:我找到了一个更好的解决方案!它完全使用我们需要的指令 ( PMADDWD )，并且与 32 位代码相同除了迭代边界不同，而不是 _mm_mullo_epi16。你用_mm_madd_epi16在循环。这只需要两个 32 位 vector 缩减阶段。 http://pastebin.com/A9ibkMwP
(可选)这是很好的风格，但使用 _mm_setzero_*() 没有任何区别函数而不是 _mm_set1_*(0) .

关于c - int 与短矢量化，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/22585306/

24

4

0

文章推荐： c - 在 C 中初始化 Lua 状态

文章推荐： Javascript 或 css onclick 函数隐藏

文章推荐： c - 在c中将字符串数组传递出函数

c# - 短+短!=短？
这个问题在这里已经有了答案: Integer summing blues, short += short problem (5 个答案) 关闭 7 年前。版本:Visual Studio Prof
java - java原语是如何工作的？，短(短+ int)？
我尝试执行以下代码: public class Test5 { /** * @param args */ public static void main(String[] args) {
java - 短 if 语句 "inside"短 if 语句
这是我的任务，我尝试仅使用简短的 if 语句来完成此任务，我得到的唯一错误是使用“(0.5<=ratio<2 )”，除此之外，构造正确吗？ Scanner scn = new Scanner(
c - 以下代码有哪些潜在问题？短 foo() { 短 a,b,c; b=10； c = a + b;返回c； }
已关闭。此问题需要 debugging details 。目前不接受答案。编辑问题以包含 desired behavior, a specific problem or error, and the
haskell - 短==实现
我有一个简单的类型 data Day = Monday | Tuesday | Wednesday | Thursday | Friday 我是haskell的新手，所以我写==如下。 (==) :
html - 短/详细按钮
如何实现“简短”和“详细”两个按钮？ “短”应该是默认值，并显示页面的一个版本。单击“详细”按钮后，应显示该页面的另一个版本。由于这有点难以解释，或许可以看下面的例子。示例页面: 别管内容需要j
C# 短 if 语句
有没有一种方法可以在 C# 中执行此操作，而无需为现有的每个 var 类型创建一个新方法来重载？ $box = !empty($toy) : $toy ? ""; 我能想到的唯一方法是: if (t
javascript - 非常频繁地播放(短)声音？
我想使用 setInterval 创建一个节拍器。我希望能够达到 300 bpm 这样的高 bpm。即使文件足够短，可以根据需要播放多次，它也很容易打嗝。此外，许多浏览器都存在短音频文件的问题——S
ios - 短 IAP 收据
我们现在有一个正在生产中的应用程序，它会将 IAP 收据发送到我们的服务器，这些收据显然太短，而且我们的服务器没有经过 apple 的验证。 Apple 正确验证的长收据长度为 3192。短收据长度均
algorithm - 如何生成一组易于检查但难以欺骗的(短)唯一标识符？
例如，许多软件使用的许可证 key 。我曾想过对一个序列进行密码签名，所以我可能有 4 个字节用于 ID，8 个字节用于签名，但我找不到合适的算法。我需要的是攻击者无法轻易生成，但存储在大约 20
linux - 获得更多确定性(短) sleep
作为一个学生项目，我们正在构建一个机器人，它应该跑完规定的路线并捡起一个木制立方体。它的核心是一台运行 debian 的单板计算机，配备 ARM9，频率为 250MHz。因此 Controller 的
java - 如何将声音文件中的(短)样本转换为字节数组
在将 short 转换为字节数组时，我在网上找到了以下解决方案，但不太理解所涉及的逻辑。 //buffer is an array of bytes, bytes[] buffer[position]
php - 如何获取对象的非限定(短)类名？
如何在 PHP namespace 环境中检查对象的类而不指定完整的命名空间类。例如，假设我有一个对象库/实体/契约(Contract)/名称。以下代码不起作用，因为 get_class 返回完整
JSF 属性引用范围内的对象，其生命周期比目标范围 View 短
我有一个 View 范围的托管 bean，其托管属性绑定(bind)到查询字符串参数。 JSF 给了我熟悉的异常: javax.faces.FacesException: Property reset
vba - 是什么间歇性地破坏了我的 VBA 短 block ？
根据 this post我已经修复了对象检查器。有时代码可以很好地运行 10 个条目，使它们全部正确，有时它可以运行 5 个条目。有时它会导致条目错误。在获取元素的内部文本时总是会失败。当它的 Y/
c++ - 如何处理 AES_set_encrypt_key 短 key
我正在编写一组工具，其中 C++ 应用程序使用 AES 加密标准对数据进行编码，而 Java 应用程序对其进行解码。据我所知， key 长度必须为 16 个字节。但是当我尝试使用不同长度的密码时，我遇
c - 变量(短)在复制/分配时更改值
我有以下代码: short num_short = 1; int possible_new_short = 1; valid = 1; while (valid) { poss
c - SIGSEGV 短 C 代码错误
因此，作为 C 的新手，我遇到了我的第一个 SIGSEGV 错误。它出现在一个简短的 C 程序中，该程序旨在成为“猜数字”游戏。它由一个比较两个数字的自定义函数和一个带有输入的 do-while 循环
python - 当因式分解中出现的(短〜)素数列表已知时，有哪些有效的整数因式分解算法？
我不是严格意义上的初级程序员，但我没有接受过数学以外的正规教育 - 所以这纯粹是业余爱好，可能是业余的。我最近自己开发了一个算法来解决这个问题，但我想知道是否有任何相对简单的算法明显更高效/更快？
html - 短 if 内的原始 Twig 变量过滤器
我正在使用短条件来区分记录列表中显示的值。例如，如果我希望强调 ( ) 标识符大于 100 的客户的姓名，请执行以下操作: {# Displays the identifier of the c

首页

博学

6Ren·AI

商城

c - int 与短矢量化