c++ - 如何优化 SIMD 转置函数(8x4 => 4x8)？-6ren

c++ - 如何优化 SIMD 转置函数(8x4 => 4x8)？

转载作者：塔克拉玛干更新时间：2023-11-03 01:43:40

35

4

我需要使用 AVX 优化 8x4 和 4x8 浮点矩阵的转置。我使用 Agner Fog 的 vector class library .

青色任务 - 构建 BVH 并求和最小值-最大值。转置用于每个循环的最后阶段(它们也通过多线程进行了优化，但任务确实很多)。

代码现在看起来像:

void transpose(register Vec4f (&fin)[8], register Vec8f (&mat)[4]) {
    for (int i = 0;i < 8;i++) {
        fin[i] = lookup<28>(Vec4i(0, 8, 16, 24) + i, (float *)mat);
    }
}

需要优化的变体。如何为 SIMD 优化此功能？

我最近用 vector 类编写了自己的转置变体(4x8 和 8x4)。版本 1.0。

void transpose(register Vec4f(&fin)[8], register Vec8f(&mat)[4]) {
    register Vec8f a00 = blend8f<0, 8, 1, 9, 2, 10, 3, 11>(mat[0], mat[1]);
    register Vec8f a10 = blend8f<0, 8, 1, 9, 2, 10, 3, 11>(mat[2], mat[3]);
    register Vec8f a01 = blend8f<4, 12, 5, 13, 6, 14, 7, 15>(mat[0], mat[1]);
    register Vec8f a11 = blend8f<4, 12, 5, 13, 6, 14, 7, 15>(mat[2], mat[3]);

    register Vec8f v0_1 = blend8f<0, 1, 8, 9, 2, 3, 10, 11>(a00, a10);
    register Vec8f v2_3 = blend8f<4, 5, 12, 13, 6, 7, 14, 15>(a00, a10);
    register Vec8f v4_5 = blend8f<0, 1, 8, 9, 2, 3, 10, 11>(a01, a11);
    register Vec8f v6_7 = blend8f<4, 5, 12, 13, 6, 7, 14, 15>(a01, a11);

    fin[0] = v0_1.get_low();
    fin[1] = v0_1.get_high();
    fin[2] = v2_3.get_low();
    fin[3] = v2_3.get_high();
    fin[4] = v4_5.get_low();
    fin[5] = v4_5.get_high();
    fin[6] = v6_7.get_low();
    fin[7] = v6_7.get_high();
}

void transpose(register Vec8f(&fin)[4], register Vec4f(&mat)[8]) {
    register Vec8f a0_1 = Vec8f(mat[0], mat[1]);
    register Vec8f a2_3 = Vec8f(mat[2], mat[3]);
    register Vec8f a4_5 = Vec8f(mat[4], mat[5]);
    register Vec8f a6_7 = Vec8f(mat[6], mat[7]);

    register Vec8f a00 = blend8f<0, 4, 8 , 12, 1, 5, 9 , 13>(a0_1, a2_3);
    register Vec8f a10 = blend8f<0, 4, 8 , 12, 1, 5, 9 , 13>(a4_5, a6_7);
    register Vec8f a01 = blend8f<2, 6, 10, 14, 3, 7, 11, 15>(a0_1, a2_3);
    register Vec8f a11 = blend8f<2, 6, 10, 14, 3, 7, 11, 15>(a4_5, a6_7);

    fin[0] = blend8f<0, 1, 2, 3, 8, 9, 10, 11>(a00, a10);
    fin[1] = blend8f<4, 5, 6, 7, 12, 13, 14, 15>(a00, a10);
    fin[2] = blend8f<0, 1, 2, 3, 8, 9, 10, 11>(a01, a11);
    fin[3] = blend8f<4, 5, 6, 7, 12, 13, 14, 15>(a01, a11);
}

需要 2.0 版。

最佳答案

我没有使用 vectorclass 库的经验，但是通过简要浏览 lookup 模板函数的源代码，您似乎在做一些非常低效的事情。

我在下面提出了一个使用 SSE/AVX 内在函数的简单高效的解决方案。我不知道如何根据 vectorclass 库对其进行完整编码。但是，您可以使用转换运算符从类 Vec4f 和 Vec8f 中提取原始数据作为 __m128 和 __m256。适当的构造函数允许您将原始结果转换回 vector 类。

在具有内部函数的纯 SSE 中， header xmmintrin.h 中有一个宏 _MM_TRANSPOSE4_PS。它将 4x4 浮点矩阵与单独的 128 位寄存器中的每一行进行转置。如果您只有 SSE(即没有 AVX)，那么您只需调用该宏两次即可。这是代码:

#define _MM_TRANSPOSE4_PS(row0, row1, row2, row3) {    \
  __m128 tmp3, tmp2, tmp1, tmp0;                      \
  tmp0 = _mm_shuffle_ps(row0, row1, 0x44);            \
  tmp2 = _mm_shuffle_ps(row0, row1, 0xEE);            \
  tmp1 = _mm_shuffle_ps(row2, row3, 0x44);            \
  tmp3 = _mm_shuffle_ps(row2, row3, 0xEE);            \
  row0 = _mm_shuffle_ps(tmp0, tmp1, 0x88);            \
  row1 = _mm_shuffle_ps(tmp0, tmp1, 0xDD);            \
  row2 = _mm_shuffle_ps(tmp2, tmp3, 0x88);            \
  row3 = _mm_shuffle_ps(tmp2, tmp3, 0xDD);            \
}

在 AVX 中，具有 256 位操作数的指令通常只对操作数的两半(称为 channel )执行 SSE 等效操作。内在的 _mm256_shuffle_ps 也不异常(exception):它只是将两个 128 位 channel 洗牌，就像它的 _mm 等效项一样。如果意味着如果我们在宏中将_mm前缀更改为_mm256前缀，它将转置两个4x4矩阵:位于四个256位的较低 channel 的那个寄存器，以及位于四个 256 位寄存器的上 channel 的那个。我们只需将生成的 256 位寄存器分成两半并正确排序即可。

生成的代码如下所示。我已经检查过它是否正常工作。它似乎只有 12 条指令，所以我想它会很快。

void Transpose4x8(__m128 dst[8], __m256 src[4]) {
  __m256 row0 = src[0], row1 = src[1], row2 = src[2], row3 = src[3];
  __m256 tmp3, tmp2, tmp1, tmp0;
  tmp0 = _mm256_shuffle_ps(row0, row1, 0x44);
  tmp2 = _mm256_shuffle_ps(row0, row1, 0xEE);
  tmp1 = _mm256_shuffle_ps(row2, row3, 0x44);
  tmp3 = _mm256_shuffle_ps(row2, row3, 0xEE);
  row0 = _mm256_shuffle_ps(tmp0, tmp1, 0x88);
  row1 = _mm256_shuffle_ps(tmp0, tmp1, 0xDD);
  row2 = _mm256_shuffle_ps(tmp2, tmp3, 0x88);
  row3 = _mm256_shuffle_ps(tmp2, tmp3, 0xDD);
  dst[0] = _mm256_castps256_ps128(row0);
  dst[1] = _mm256_castps256_ps128(row1);
  dst[2] = _mm256_castps256_ps128(row2);
  dst[3] = _mm256_castps256_ps128(row3);
  dst[4] = _mm256_extractf128_ps(row0, 1);
  dst[5] = _mm256_extractf128_ps(row1, 1);
  dst[6] = _mm256_extractf128_ps(row2, 1);
  dst[7] = _mm256_extractf128_ps(row3, 1);
}

UPDATE 逆向换位以完全相同的方式完成，只是有些事情以相反的顺序进行。这是代码:

void Transpose8x4(__m256 dst[4], __m128 src[8]) {
  __m256 row0 = _mm256_setr_m128(src[0], src[4]);
  __m256 row1 = _mm256_setr_m128(src[1], src[5]);
  __m256 row2 = _mm256_setr_m128(src[2], src[6]);
  __m256 row3 = _mm256_setr_m128(src[3], src[7]);
  __m256 tmp3, tmp2, tmp1, tmp0;
  tmp0 = _mm256_shuffle_ps(row0, row1, 0x44);
  tmp2 = _mm256_shuffle_ps(row0, row1, 0xEE);
  tmp1 = _mm256_shuffle_ps(row2, row3, 0x44);
  tmp3 = _mm256_shuffle_ps(row2, row3, 0xEE);
  row0 = _mm256_shuffle_ps(tmp0, tmp1, 0x88);
  row1 = _mm256_shuffle_ps(tmp0, tmp1, 0xDD);
  row2 = _mm256_shuffle_ps(tmp2, tmp3, 0x88);
  row3 = _mm256_shuffle_ps(tmp2, tmp3, 0xDD);
  dst[0] = row0; dst[1] = row1; dst[2] = row2; dst[3] = row3;
}

关于c++ - 如何优化 SIMD 转置函数(8x4 => 4x8)？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/34122605/

35

4

0

文章推荐： c++ - 仿函数/函数对象的 is_function 类型特征

文章推荐： php - 如何解析phpize : command not found in centos 6. 3？

文章推荐： C++ 指定结构的实际大小

WPF 转 XPS 转 PDF
我已经在标准 WPF 控件中实现了一个报告，并且还实现了一个 DocumentPaginator获取这些控件并将它们转换为用于打印的文档。我还实现了一些使用文档分页器将页面呈现为图像并使用 PDFS
javascript - 字符串转 UTF8 转 SHA256 转 BASE64
在 C# 中，我有以下代码: public static string GetHashCode(string p) { var a = new SHA256Managed();
javascript - mySQLi 转 Json 转 Js 文件
您好，我正在尝试在编码后将我的 mysqli 数据库输出到一个 js 文件，我用 json_encode 对其进行编码没有任何问题，但是如何将其放入 js 文件中(每次更新时更新) mysqli数据已
javascript - 从 JS 转 HTML 转 PHP
我需要将 select 从 JS 传递到 HTML。 select 应该包含来自 PHP 的 option。所以，首先我有一个 HTML div，我将在其中添加来自 JS 的内容。
javascript - SVG 转 PNG 转 AJAX API 帖子
我有一个相当大且复杂的 SVG 代码，它根据页面信息使用 JavaScript 和 jQuery 动态生成。然后我有一个 AJAX 帖子保存。我无法将其转换为正确发布图像数据？ var canva
objective-c - NSDate 转 GMTDate 转 JSON 格式
我想将我的本地日期 ([NSDate date]) 转换为 GMT 以创建一个 JSON 字符串 (/Date(1324435876019-0000)/)。当我将时钟设置为 EST 时区时，我的代码
数据库设计技巧[转]
1. 原始单据与实体之间的关系　　可以是一对1、一对多、多对多的关系。在一般情况下，它们是一对一的关系：即一张原始单据对应且只对应一个实体。在特殊情况下，它们可能是一对多或多对一的关系，即一张原
服务器五大相关基础知识【转】
CFSDN坚持开源创造价值，我们致力于搭建一个资源共享平台，让每一个IT人在这里找到属于你的精彩世界. 这篇CFSDN的博客文章服务器五大相关基础知识【转】由作者收集整理，如果你对这篇文章有兴趣，记得
GmailMessage 转 PDF
Google Apps 脚本 - Gmail 是否会实现 GmailMessage (GmailThread) .getAsPdf() 方法？预期输出与 Gmail 中可用的打印为 PDF 的输出相同
一个函数解决SQLServer中bigint 转 int带符号时报错问题
有一个需求是要在一个云监控的状态值中存储多个状态（包括可同时存在的各种异常、警告状态）使用了位运算机制在一个int型中存储。现在监控日志数据量非常大（亿级别）需要对数据按每小时、每天进行聚合，供
1张图看懂RAID功能，6张图教会配置服务器【转】
CFSDN坚持开源创造价值，我们致力于搭建一个资源共享平台，让每一个IT人在这里找到属于你的精彩世界. 这篇CFSDN的博客文章1张图看懂RAID功能，6张图教会配置服务器【转】由作者收集整理，如果你
FFMpeg rtsp 转 m3u8
我正在使用 FFMPeg(版本 ffmpeg-20170330-ad7aff0-win64-static)将 RTSP 转换为 .m3u8。命令是: ffmpeg -rtsp_transport t
treeview - Jtree 转 JPanel
我有一个 JTree使用 DefaultTreeModel 的对象作为模型，我添加/删除与该模型相关的节点。此时，我需要在图形界面中显示树结构，例如 JPanel .如何映射 DefaultTree
iphone - NSString 转 NSArray
我当前正在接收一个文件并将其存储到 NSString 中。然后，我从字符串中创建一个数组并将其呈现在 TableView 中。这在一定程度上有效。我目前收到的数据如下: 公司名称|帐户代码\r\n公司
cocoa - NSImage 转 Base64
我需要创建 NSImage cocoa 对象的 base64 字符串表示形式。处理这个问题的最佳方法是什么，苹果文档似乎在这个主题上有点短(或者我只是找不到它)。 Base64 编码从外面看起来相当复
Javascript 转 ISOString 格式
JS 中的 .toISOString() 函数给我这样的字符串: 2015-06-14T20:00:00:000Z 我需要它是这样的: 2015-06-14T20:00:00Z JS 中是否有其他函数
javascript - COLORREF 转 RGB
我正在尝试使用 JavaScript 转换 COLORREF: COLORREF : When specifying an explicit RGB color, the COLORREF value
JavaFX TextField 转 Int
我在这里遇到了这个代码的问题，只是想制作一个小计算器: 打包申请； import javafx.event.ActionEvent; import javafx.scene.control.TextF
sshfs EBCDIC 转 ASCII
我想要做的是能够通过本地PC上的USS通过sshfs挂载主机上的一些文件。我可以做到这一点，但 sshfs 不能直接完成从 EBCDIC 到 ascii/unicode 的转换。有没有我可以设置的标志
Python Visio 转 pdf
我正在尝试在 python 中将一堆 Visio 文件转换为 pdf。我已经引用了这个.doc to pdf using python并编写了以下代码: import comtypes.client

首页

博学

6Ren·AI

商城

c++ - 如何优化 SIMD 转置函数(8x4 => 4x8)？