simd - 使用 __m512 (AVX512) 进行水平添加-6ren

simd - 使用 __m512 (AVX512) 进行水平添加

转载作者：行者123 更新时间：2023-12-01 22:34:31

24

4

如何在 512 位 AVX 寄存器中使用 float 有效地执行水平加法(即将单个向量中的项加在一起)？对于 128 和 256 位寄存器，可以使用 _mm_hadd_ps 和 _mm256_hadd_ps 来完成，但没有 _mm512_hadd_ps。 Intel 内在函数指南文档 _mm512_reduce_add_ps。它实际上并不对应于单个指令，但它的存在表明存在一种最佳方法，但它似乎没有在 GCC 最新快照附带的头文件中定义，我找不到它的定义与 Google 合作。

我认为“hadd”可以用 _mm512_shuffle_ps 和 _mm512_add_ps 来模拟，或者我可以使用 _mm512_extractf32x4_ps 将 512 位寄存器分解为四个 128 位寄存器，但我想确保我不会错过更好的东西。

最佳答案

INTEL 编译器定义了以下内部函数来进行水平求和

_mm512_reduce_add_ps     //horizontal sum of 16 floats
_mm512_reduce_add_pd     //horizontal sum of 8 doubles
_mm512_reduce_add_epi32  //horizontal sum of 16 32-bit integers
_mm512_reduce_add_epi64  //horizontal sum of 8 64-bit integers

但是，据我所知，无论如何，这些都被分解为多个指令，因此我认为您除了对 AVX512 寄存器的上部和下部进行水平求和之外，不会获得任何其他 yield 。

__m256 low  = _mm512_castps512_ps256(zmm);
__m256 high = _mm256_castpd_ps(_mm512_extractf64x4_pd(_mm512_castps_pd(zmm),1));

__m256d low  = _mm512_castpd512_pd256(zmm);
__m256d high = _mm512_extractf64x4_pd(zmm,1);

__m256i low  = _mm512_castsi512_si256(zmm);
__m256i high = _mm512_extracti64x4_epi64(zmm,1);

要获得水平总和，请执行 sum = Horizontal_add(low + high)。

static inline float horizontal_add (__m256 a) {
    __m256 t1 = _mm256_hadd_ps(a,a);
    __m256 t2 = _mm256_hadd_ps(t1,t1);
    __m128 t3 = _mm256_extractf128_ps(t2,1);
    __m128 t4 = _mm_add_ss(_mm256_castps256_ps128(t2),t3);
    return _mm_cvtss_f32(t4);        
}

static inline double horizontal_add (__m256d a) {
    __m256d t1 = _mm256_hadd_pd(a,a);
    __m128d t2 = _mm256_extractf128_pd(t1,1);
    __m128d t3 = _mm_add_sd(_mm256_castpd256_pd128(t1),t2);
    return _mm_cvtsd_f64(t3);        
}

我从Agner Fog's Vector Class Library获得了所有这些信息和功能和 Intel Instrinsics Guide online .

关于simd - 使用 __m512 (AVX512) 进行水平添加，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/26896432/

24

4

0

文章推荐： ios - 仅在最近没有崩溃时才显示 SKStoreReviewController？

文章推荐： Java 文本字段输入问题

haskell - 水平、垂直和对角线上的数字相乘
我目前正在研究一个项目欧拉问题(www.projecteuler.net)，但遇到了一个绊脚石。其中一个问题提供了一个 20x20 的数字网格，并要求直线上 4 个数字的最大乘积。这条线可以是水平的、
join - 水平 UNION ALL
我有两个表，我需要从每个表中选择一列。这必须在单个查询中完成。好消息是这两列以正确的方式排序，并且它们都包含相同数量的行。现在，我知道我可以通过 rowid 加入两个表，但它很慢，因为它必须进行
iphone - 水平 UITableView
我想在我的 iPad 应用程序中实现一个布局，该布局具有一个可左右滚动而不是上下滚动的合适 View : 所以而不是第 1 行第 2 行第 3 行(垂直滚动)这将是 :第 1 行、第 2 行、第 3
imagemagick - 并排合并图像(水平)
我有五个尺寸的图像:600x30、600x30、600x30、600x30、810x30。它们的名称分别是:0.png、1.png、2.png、3.png、4.png。如何使用 ImageMagic
java - 滚动浏览多个列表(水平)
我正在寻找一个选项来滚动多个列表(水平)，如附件中的图片所示。您可以向左或向右滑动以进入下一个 ListView 。顶部应该有一些按钮可以单击或滚动我尝试将 ListViews 放入类似此代码的内容
camera - 水平、垂直和对角线视野之间的关系
这些值之间是否存在数学关系？如果我知道 hFOV 和 vFOV，我可以计算对角 FOV 而不涉及焦距等其他值吗？我的第一个想法是使用毕达哥拉斯定理，但也许这是错误的。最佳答案感兴趣的物理量是传感
c++ - 水平/垂直均匀分布网格单元？
我正在尝试在 game_width=640 和 game_height=480 的窗口内绘制网格。网格单元的数量是预定义的。我想在水平和垂直方向上均匀分布单元格。 void GamePaint(HDC
水平 ScrollView 上的android绘图线
你好，我已经发布了我的 iphone 应用程序 Micro-Pitch，现在正在将它移植到 android 上。我不知道如何在 ScrollView 中画线，想知道我做错了什么。这是我的 Scrol
css - 对齐图像 - 水平
如果您访问我的网站:www.ryancoughlin.com - 如果您在页面右侧看到 Google、Yahoo 等 RSS 按钮。我试图让它们均匀对齐，它们的图像高度都相同，我一直试图让它们均匀对齐
javascript - 居中问题(水平)
我想将此 Material 水平居中: 最佳答案将 text-align:center 添加到您的 anchor 。我假设您的 zoom1 具有 display
html - 旋转木马共享行 - 水平
我正在努力做到这一点，以便我的旋转木马可以与其他文本共享一个水平行，但由于某种原因它无法正常工作，当它设置为 40% 时它占据了 100% 的宽度。我将在下面发布代码和屏幕截图。在上图中，它显示了
html - 如何将元素的宽度设置为从特定位置到页面末尾(水平)
问题来了。我正在尝试放置一些彼此相邻的元素。 div 的宽度s 未指定，取决于它们的内容。我正在使用下面的 CSS 代码来定位彼此相邻: #div{ height: 50px; f
css - 无法并排打印表格(水平)
我正在尝试使用这样的 Bootstrap 并排打印表格但是当我尝试打印预览时，我得到了这个我的代码如下。我尝试了所有可能的解决方案，但我不知道为什么我无法打印我看到的页面。请指导我解决这个问题。
html - 两种背景颜色(水平)
我想知道是否可以在背景中使用两种不同的颜色，并通过 Bootstrap 在每一侧扩展 100%。这是我的意思的截图，左侧为红色，右侧为深色，为更大的屏幕放大 100%。有什么简单的解决方案吗？最
javascript - jquery滚动垂直/水平
我正在尝试制作一个包含所有事件的滚动触发的整个网站。我只需要帮助来实现这种效果: 我有一个网站，其中包含一些填满所有视口(viewport)的 div，我希望用户能够向下滚动到一个命名的 div，然后
html - 按钮之间的间距相等(水平)
我的代码是 Show All Show Valid Show Pending Save Clear Download As CSV 我希望那些输入日期和按钮在 class="buttons" di
javascript - 可扩展的菜单框(水平)
我在玩这个想法: 在这个 block 中我有 2 作为按钮和并尝试了 float荷兰国际集团他们让他们粘在一起。实现这种效果的主要思想是操纵 ul 的宽度/显示状态。或者只是菜单部分。 Log
html - 如何将此幻灯片移动到页面的中心(水平)？
这个问题在这里已经有了答案: How can I horizontally center an element? (134 个回答) 关闭 4 年前。
jquery - 水平/垂直跨浏览器居中图像
我遇到了一个 CSS 问题，需要帮助。我在目录中有许多不同大小的图像，我正在动态列出它们以显示以下 View :(我仅显示两个图像作为示例) 这是我的 HTML:
android - 水平 ListView
这个问题在这里已经有了答案: 关闭 9 年前。 Possible Duplicate: How can I make a horizontal ListView in Android? 我已经多次使

首页

博学

6Ren·AI

商城

simd - 使用 __m512 (AVX512) 进行水平添加