x86 - AVX 中的 AVX2 VPSHUFB 仿真-6ren

x86 - AVX 中的 AVX2 VPSHUFB 仿真

转载作者：行者123 更新时间：2023-12-04 11:22:41

28

4

在 AVX 中只有 128 位 PSHUFB

VPSHUFB xmm1, xmm2, xmm3/m128

并且只有 AVX2 具有完整的 PSHUFB对于整个 256 位 AVX 寄存器

VPSHUFB ymm1, ymm2, ymm3/m256

如何使用 AVX 内在函数有效地模拟此指令？

同样在这种特殊情况下，源只有 8 个元素(字节)，但这些元素可以在目标的完整 32 个字节内移动。所以只运行 2 x PSHUFB 没问题.

我在 VPSHUFB 中发现的一个问题是否将 16 (0x10) 视为 0，只有 128 及以上填充为零! (设置最高位)是否可以在不添加比较和屏蔽的情况下做到这一点？

最佳答案

正如@MaratDukhan 所注意到的，_mm256_shuffle_epi8 (即 VPSHUFB 用于 ymm-s)不执行完整的 32 字节洗牌。对我来说，实在是太可惜了……

这就是为什么为了在没有 AVX2 的情况下模拟它，您可以简单地将每个寄存器分成两半，对每一半进行置换，然后组合在一起:

//AVX only
__m256i _emu_mm256_shuffle_epi8(__m256i reg, __m256i shuf) {
    __m128i reg0 = _mm256_castsi256_si128(reg);
    __m128i reg1 = _mm256_extractf128_si256(reg, 1);
    __m128i shuf0 = _mm256_castsi256_si128(shuf);
    __m128i shuf1 = _mm256_extractf128_si256(shuf, 1);
    __m128i res0 = _mm_shuffle_epi8(reg0, shuf0);
    __m128i res1 = _mm_shuffle_epi8(reg1, shuf1);
    __m256i res = _mm256_setr_m128i(res0, res1);
    return res;
}

如果你真的想完全洗牌 32 字节的寄存器，你可以按照 this paper 中的方法进行操作。 .将每一半与每一半混洗，然后将结果混合在一起。如果没有 AVX2，它将是这样的:

//AVX only
__m256i _emu_mm256_shuffle32_epi8(__m256i reg, __m256i shuf) {
    __m128i reg0 = _mm256_castsi256_si128(reg);
    __m128i reg1 = _mm256_extractf128_si256(reg, 1);
    __m128i shuf0 = _mm256_castsi256_si128(shuf);
    __m128i shuf1 = _mm256_extractf128_si256(shuf, 1);
    __m128i res00 = _mm_shuffle_epi8(reg0, shuf0);
    __m128i res01 = _mm_shuffle_epi8(reg0, shuf1);
    __m128i res10 = _mm_shuffle_epi8(reg1, shuf0);
    __m128i res11 = _mm_shuffle_epi8(reg1, shuf1);
    __m128i res0 = _mm_blendv_epi8(res10, res00, _mm_cmplt_epi8(shuf0, _mm_set1_epi8(16)));
    __m128i res1 = _mm_blendv_epi8(res11, res01, _mm_cmplt_epi8(shuf1, _mm_set1_epi8(16)));
    __m256i res = _mm256_setr_m128i(res0, res1);
    return res;
}

如果你确定只有 reg的下半部分使用，那么您可以删除 reg1 的行, res10 , res11 ，并删除比较和混合。事实上，如果您没有 AVX2，坚持使用 SSE 并使用 128 位寄存器可能更有效。

使用 AVX2 可以显着优化一般的 32 字节改组:

//Uses AVX2
__m256i _ext_mm256_shuffle32_epi8(__m256i reg, __m256i shuf) {
    __m256i regAll0 = _mm256_permute2x128_si256(reg, reg, 0x00);
    __m256i regAll1 = _mm256_permute2x128_si256(reg, reg, 0x11);
    __m256i resR0 = _mm256_shuffle_epi8(regAll0, shuf);
    __m256i resR1 = _mm256_shuffle_epi8(regAll1, shuf);
    __m256i res = _mm256_blendv_epi8(resR1, resR0, _mm256_cmpgt_epi8(_mm256_set1_epi8(16), shuf));
    return res;
}

当心 : 代码未测试!

关于x86 - AVX 中的 AVX2 VPSHUFB 仿真，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/32533275/

28

4

0

文章推荐： r - 收集 tidyr : position must be between 0 and n error

文章推荐：任何人都可以解释这个按位函数来计算 log(n)

文章推荐： telerik - 如何为 Telerik RadGrid 中的列标题添加颜色

文章推荐： r - 动画排序条形图 : problem with overlapping bars

虚拟化 CPU 仿真
我对虚拟机的 CPU 虚拟化有疑问。我无法理解即时到 native 代码翻译与陷阱和模拟翻译之间的区别。据我所知，在第一种情况下，假设我从不同的平台模拟二进制代码，如果我有 x86 CPU，代码将转
虚拟化 CPU 仿真
我对虚拟机的 CPU 虚拟化有疑问。我无法理解即时到 native 代码翻译与陷阱和模拟翻译之间的区别。据我所知，在第一种情况下，假设我从不同的平台模拟二进制代码，如果我有 x86 CPU，代码将转
matlab - MATLAB 仿真
我必须模拟 Ant 在它们的家(黑框)和食物(黄框)之间移动。这些三色盒子是 Ant 。我为绘制所示图形编写的代码如下: % background background() % making
GWT Java 仿真
我有一些使用 java.awt.Color 的代码。我想将我的 Java 代码转换为 GWT。所以我将在我的 GWT 项目中模拟 java.awt.Color。一种方法是编写一个名为源路径为awt的
c - 更深入的功能分析/仿真
大家好圣诞节快乐我需要一个建议我有以下代码: int main() { int k=5000000; int p; int sum=0; for (p=0;p<
matlab - 是否可以在满足特定条件时停止 Simulink 仿真？
假设您有一个 Simulink 仿真，其中某个信号首先为正，然后在给定时间间隔内经过一段时间 t 后变为负。您的目标是找到零交叉点。第一种方法是在给定的间隔内绘制信号，保存它并计算过零。当针对不同
emulation - 6502 CPU 仿真
现在是周末，所以我通过编写一个爱好项目来放松整周的编程。昨天写了一个MOS 6502 CPU仿真器的框架，寄存器、堆栈、内存和所有操作码都实现了。 (来源链接如下) 我可以在我编写的调试器中手动运行
android - 无法使用硬件键盘创建 Android 仿真
出于测试目的，我需要创建如下所示的 AVD: 但是我所有的模拟设备都是这样的: 它们只包含屏幕，没有硬件键盘。这是“新设备”对话框: “存在硬件键盘”没有任何效果。如何获得所需的设备配置？ Andro
ie6 和其他中的 css3 仿真
有没有什么地方有一个独门绝技的小马，它可以使 css3 的所有优点(阴影、发光、圆 Angular )并使其与 ie6 兼容/看起来相似... i have try that ...哦，天哪，这太丑了
"super"关键字的 c++ 仿真
在用 c++ 实现“super”之前，我正在寻找一种自己模拟它的方法。动机:这是一个典型的场景: class A { void SomeMethod(); } class B : public
linux - QEMU msi 仿真
我正在研究一个模拟 QEMU 设备来模拟 FPGA PCIe 接口(interface)。我使用 lev-pci 设备作为基本模板: https://github.com/levex/kernel-q
windows - HID 软件设备(仿真)
您知道为 Windows 和/或 Linux 制作软件(虚拟)HID 设备的方法吗？我想将一些传感器用作 HID，但它们没有任何 HID，所以我想我可以在 PC(模拟 onde)上安装自己的 HID
php函数参数错误抑制，empty() isset() 仿真
我很确定这个问题的答案是否定的，但万一有一些 PHP 大师是否有可能以可以传入无效参数或不存在的变量的方式编写函数，并且 php 在不使用 '@' 的情况下不会出错很像 empty 和 isset
c# - 未插入实际设备的 Kinect 仿真
当 Kinect 本身未插入时，是否可以模拟 Kinect 传感器(用于与 Kinect SDK 一起使用)？起初我认为 Kinect Studio 完全符合我的要求，但现在看来 Kinect St
html - 框架集的纯 CSS 仿真
我已经搜索了 1 个多小时没有成功。是否有模拟框架集的纯 CSS 方式？我的意思是，真的在模仿它。我发现了一些有趣的东西，您将在其中固定顶部和底部 block ，但内容的滚动条是常规的浏览器主体滚动条
linux - 虚拟 GPIO 仿真
是否存在用于编程需求的虚拟 GPIO 驱动程序？我必须在我的 Linux PC 上开发一个软件，然后在一些带有物理 GPIO 的嵌入式系统(C.H.I.P.、OpenWRT 等等......)上试用
android - 如何加速 Android 仿真？
我正在尝试开始 Android 开发。我在 Linux 上使用 eclipse 并使用 Pentium IV @3.2Gh 和 1GB 内存。我刚刚遵循“hello android”howto，只有
google-chrome - 从命令行启动 Chrome 仿真
我使用 Google Chrome 和 Intern 运行自动化测试，我想知道是否有办法从 CLI 以仿真模式启动 Chrome 或使用特定标志来测试移动渲染。如果没有，您知道一个好的解决方法吗？我
c - 通过闪存进行 STM32F1 EEPROM 仿真
我正在尝试通过 STM32F1 上的闪存模拟 EEPROM，如 here 所述(对于STM32F4)例如，但我正在努力更改STM32F1RB(中密度)规范的代码。我正在使用 SW4STM32、Cube
c++ - AVR XMEGA USART 仿真
使用下面的测试代码，我尝试使用中的 simulator 通过 xmega128a3u 的 USART 发送数据Atmel Studio. 观察 I/O 查看数据寄存器从未设置，即使我正在设置它。是我

首页

博学

6Ren·AI

商城

x86 - AVX 中的 AVX2 VPSHUFB 仿真