c++ - 物理寄存器和英特尔 SIMD 变量之间的关系？-6ren

c++ - 物理寄存器和英特尔 SIMD 变量之间的关系？

转载作者：塔克拉玛干更新时间：2023-11-03 06:45:37

28

4

物理处理器寄存器与英特尔内部函数(例如 __m128)中使用的变量之间的关系是什么？

解释 SIMD 的图表通常显示 2 个寄存器，但引用了 Intel forums “注册压力”并在此question “注册着色”表明还有更多事情正在发生。

可以声明任意数量的代表寄存器的变量吗？当它们与有限的物理资源紧密相关时，这怎么可能呢？关于如何选择物理寄存器，应该注意什么？如果声明的寄存器多于存在的寄存器会怎样？

可以同时激活多对寄存器吗？

是否有不同类型的物理寄存器？

最佳答案

_m128, _m128i, _m128d, ... 等变量类型主要是为了保护你。它们确保您不会尝试使用 +、-、&、|、== 等标准运算符，并确保如果您尝试分配错误的类型，编译器将抛出错误。这些类型强制编译器将自身加载到适当的寄存器(在本例中为 XMM*)，但仍然允许编译器自由选择哪一个，或者如果所有适当的寄存器都被占用，则将它们存储在本地堆栈中。它们还确保无论何时将它们存储在堆栈中，它们都保持正确的对齐(在本例中为 16 字节对齐)，以便依赖对齐的内部指令不会导致 GPF。

如果您喜欢使用 asm 结构，您可以将这些变量之一紧密地绑定(bind)到物理寄存器:

__m128i myXMM1 asm( "%xmm1");

但最好让编译器发挥它的魔力并为您选择寄存器以实现更好的优化。

可以声明任意数量的这些变量，即使超额预订您的 XMM 寄存器存储也可能不会导致使用堆栈空间，只要您的工作寄存器集保持较小。编译器作用域通常会意识到何时不再使用某个值，并允许优化器不将其存储回堆栈。有时您可以通过创建自己的作用域堆栈框架来帮助编译器:

__m128i storedVar;
{
  __m128i tempVar1, tempVar2, tempVar3;
  // do some operations with tempVar1 -> 3
  storedVar = tempVar1;
}
{
  __m128i tempVar4, tempVar5, tempVar6, tempVar7, tempVar8;
  // do some operations with tempVar4 -> 8
  storedVar = tempVar4;
}

return storedVar;

由于变量在闭合的花括号处超出范围，编译器发现用于包含这些值的寄存器现在已被释放，因此它不需要超过可用 XMM 寄存器的总数。

如果你确实超额预订你的寄存器存储，并且所有值都需要维护，那么编译器将在堆栈上分配适当的大小并确保它正确对齐，并且 XMM 寄存器的值将被换出到堆栈为新值腾出空间。请记住，堆栈空间缓存良好，因此写入和读取不会像您预期的那样有害。真正的打击是需要额外的移动操作来换入和换出它们。

物理寄存器按宽度有不同类型(64位、128位、256位、512位)，显然与对应的C/C++内在数据类型有关。给定宽度的不同“ flavor ”(“__m128i”、“__m128d”、...)实际上可以驻留在给定宽度的任何寄存器中。该类型强制您使用适当的内部类型(例如，_mm_and_si128 与 _mm_and_pd)，这反过来会生成适当版本的指令。

像“and”这样的东西就是一个很好的例子，因为无论类型如何，结果操作都是相同的 - 按位“and”。但是根据我在英特尔文档中阅读的内容，使用错误的类型可能会导致延迟。整数指令和浮点指令有单独的执行队列，每当数据必须从一个执行队列移动到另一个执行队列时，就会有惩罚。因此，一般来说，最好选择合适的数据类型，以便生成合适的指令，并保持在该数据类型的范围内。

关于c++ - 物理寄存器和英特尔 SIMD 变量之间的关系？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/22207021/

28

4

0

文章推荐： c++ - 从 CocoaPods 库中的编译中排除源文件

python - 英特尔 MKL 加载失败。英特尔 MKL fatal error : Cannot load libmkl_core. dylib
我尝试设置一个文件来使用 PyCharm 编写 AI。我正在使用的教程:https://www.youtube.com/watch?v=ujTCoH21GlA 当我运行代码时: $ import t
cpu - 每个周期的浮点运算 - 英特尔
我一直在寻找很长一段时间，似乎无法找到一个官方/结论性的数字来引用英特尔至强四核可以完成的单精度浮点运算/时钟周期的数量。我有一个 Intel Xeon 四核 E5530 CPU。我希望用它来计算我
CPU比GPU训练神经网络快十几倍，英特尔：别用矩阵运算了
在深度学习与神经网络领域，研究人员通常离不开 GPU。得益于 GPU 极高内存带宽和较多核心数，研究人员可以更快地获得模型训练的结果。与此同时，CPU 受限于自身较少的核心数，计算运行需要较长的时间
英特尔 SGX 线程与 TCS
我试图了解 TCS 启用的 SGX 线程与 SDK 提供的不受信任线程之间的区别. 如果我理解正确的话，TCS 允许多个逻辑处理器进入同一个飞地。每个逻辑处理器都有自己的 TCS，因此也有自己的入口点
assembly - 英特尔 IACA 分析器改变了组装？
我想通过 IACA 分析器运行一些代码以查看它使用了多少个 uops——我从一个简单的函数开始，看看它是否在工作。不幸的是，当我插入 IACA 说要使用的宏时，生成的程序集非常不同，因此对它的任何分
security - 英特尔 SGX 开发人员许可和开源软件
是否有可能获得许可的开发人员证书，以在生产模式下签署经过安全审查、社区开发的开源 SGX 软件二进制文件，并将其发布在 apt 或 rpm 等开源存储库中？我刚问过英特尔 SGX 团队，他们说只有经
port - 英特尔 8080 指令 : OUT
我正在尝试模拟 Intel 8080 指令集，但我被这条指令卡住了 OUT D8 ，根据书Intel 8080/8085 Assembly Language Programming它说 OUT ins
fortran - 英特尔 FORTRAN 中的解除分配
我在使用一些现有的 FORTRAN 代码时发现了一个问题。尽管它已经预料到需要在重新分配之前释放数组，但这从来没有必要。我现在需要它来执行此操作，但它无法正常运行。当前的伪代码大约是: MODULE
fortran - 英特尔 Fortran 中结构内的数据对齐
我正在尝试在内存中对齐以下类型的数据: type foo real, allocatable, dimension(:) :: bar1, bar2 !dir$ attributes al
gpl - 英特尔 TBB 许可证
关闭。这个问题是off-topic .它目前不接受答案。想改善这个问题吗？ Update the question所以它是 on-topic对于堆栈溢出。 8年前关闭。 Improve this q
multithreading - 英特尔 SFENCE 有发布语义吗？
似乎获得和释放语义的公认定义是这样的: (引自 http://msdn.microsoft.com/en-us/library/windows/hardware/ff540496(v=vs.85).a
multithreading - 英特尔 TBB 流程图开销
这是我对英特尔 TBB 流图性能进行基准测试的尝试。这是设置: 一个广播节点发送continue_msg到 N 后继节点 (一broadcast_node) 每个后继节点执行一次计算，该计算需要 t
javascript - 英特尔 xdk - 服务器端
我有两个问题第一个问题:我使用 css3、HTML5、JavaScript 开发应用程序。在我的应用程序中，我需要从数据库中获取数据。我该怎么做？第二个问题:intel xdk 在构建 l 时必须
performance - 英特尔 CPU 指令队列提供静态分支预测？
在英特尔手册的第 3 卷中，它包含硬件事件计数器的描述: BACLEAR_FORCE_IQ Counts number of times a BACLEAR was forced by the Ins
javascript - 英特尔 xdk 数据库
嘿，我正在使用 Intel xdk 开发混合应用程序。我已经创建了注册表，然后我将代码放在那里。我尝试使用 Php Mysql 将数据库插入我的数据库后。如果我单击注册按钮，它会显示这样的错误 [
c - 英特尔 C++ - 优化器消息
我想知道是否可以让英特尔 C++ 编译器(或其他编译器，如 gcc 或 clang)显示一些来自优化器的消息。我想知道优化器究竟对我的代码做了什么。默认情况下，编译器只打印非常基本的东西，比如未使用的
assembly - 英特尔 AVX2 组装开发
我正在使用 64 位架构的 Intel 程序集优化我的视频解码器。为了优化，我使用 AVX2 指令集。我的开发环境:- 操作系统:- Win 7(64位) IDE:- MSVS 2008(教授) C
fortran - 英特尔 Fortran 值属性
如果这是一个非常愚蠢的问题，我很抱歉；我的 Fortran 不太好。我正在移植一些旧的 Fortran 代码，并遇到了这个子例程定义: SUBROUTINE SET_HYDROMODULE(HYDRO
cordova - 英特尔 XDK + Phonegap
请问，我是否可以将 Intel XDK API 和 Phonegap API 集成到单个移动应用程序中？这是因为，某些 API 仅在 Phonegap 中可用，反之亦然。最佳答案是的，如果我正确理
assembly - 英特尔 x86 操作码引用？
在 x86 中查找任意操作码的含义(例如 0xC8 )的相对快速简便的方法是什么？ Intel Software Developer's manual搜索起来不是很有趣...... 最佳答案查询 t

首页

博学

6Ren·AI

商城

c++ - 物理寄存器和英特尔 SIMD 变量之间的关系？