x86 - 显示向量寄存器的约定-6ren

x86 - 显示向量寄存器的约定

转载作者：行者123 更新时间：2023-12-04 23:32:36

24

4

是否有显示/写入大型寄存器的约定，例如英特尔 AVX 指令集中可用的那些？

例如，如果最低有效字节为 1，最高有效字节为 20，xmm 中的其他位置为 0。寄存器，对于按字节显示是以下首选(小端):

[1, 0, 0, 0, ..., 0, 20]

或者这是首选:

[20, 0, 0, 0, ..., 0, 1]

同样，当显示由较大数据项组成的寄存器时，是否应用相同的规则？例如，要将寄存器显示为 DWORD，我假设每个 DWORD 仍然以通常的(大端)方式写入，但 DWORD 的顺序是什么:

[0x1, 0x0, ..., 0x14]

对比

[0x14, 0x0, ..., 0x1]

讨论

我认为两个最有希望的答案只是“LSE1 first”(即上面示例中的第一个输出)或“MSE first”(第二个输出)。两者都不依赖于平台的字节序，因为实际上在寄存器中的数据通常是字节序独立的(就像对 GP 寄存器或 long 或 int 或 C 中的任何内容的操作都独立于字节序)。字节序出现在寄存器 <-> 内存接口(interface)中，这里我询问的是寄存器中已经存在的数据。

可能存在其他答案，例如取决于字节序的输出(Paul R 的答案可能是一个，但我不知道)。

伦敦证交所第一

LSE-first 的一个优势似乎特别是字节输出:通常字节从 0 到 N 编号，LSB 为零2，因此 LSB-first 输出输出它的索引增加，就像你输出一个大小为 N 的字节数组。

它在小端架构上也很好，因为输出然后匹配存储到内存中的同一向量的内存中表示。

MSE优先

这里的主要优势似乎是较小元素的输出与较大尺寸的输出顺序相同(仅具有不同的分组)。例如，对于 MSB 表示法中的 4 字节向量 [0x4, 0x3, 0x2, 0x1] ，字节元素、字和双字元素的输出将是:

[0x4, 0x3, 0x2, 0x1]
[0x0403，0x0201]
[0x04030201]

从本质上讲，即使从字节输出中，您也可以“读取”字或双字输出，反之亦然，因为字节已经处于通常的 MSB 优先顺序以进行数字显示。另一方面，LSE-first 的相应输出是:

[0x1, 0x2, 0x3, 0x4]
[ 0x0201 , 0x0403 ]
[0x04030201]

请注意，每一层都相对于它上面的行进行交换，因此读取更大或更小的值要困难得多。您需要更多地依赖输出对您的问题最自然的元素。

这种格式还有一个优点，即在 BE 架构上，输出与存储到 memory3 的同一向量的内存表示相匹配。

英特尔在其手册中首先使用 MSE。

1 最不重要的元素

2 这样的编号不仅用于文档目的 - 它们在架构上是可见的，例如，在洗牌掩码中。

3 当然，与 LSE-first 在 LE 平台上的相应优势相比，这种优势是微不足道的，因为 BE 在商品 SIMD 硬件中几乎已死。

最佳答案

保持一致是最重要的；如果我正在处理已经具有 LSE 优先注释或变量名称的现有代码，我会匹配它。

如果可以选择，我更喜欢评论中的 MSE 优先表示法 ，尤其是在设计带有混洗或特别是打包/解包到不同元素大小的东西时。

英特尔不仅在手册中的图表中使用 MSE 优先，而且在内部函数/指令的命名中，如 pslldq (字节移位)和psrlw (位移):向 MSB 左移位/字节.伦敦政治经济学院优先的思维并不能让你在心理上扭转事情，这意味着你必须在考虑轮类而不是加载/存储时这样做。由于 x86 是 little-endian，因此您有时不得不考虑这一点。

在 MSE 优先考虑向量时，只需记住内存顺序是从右到左。当您需要考虑从一 block 内存中重叠未对齐的负载时，您可以按从右到左的顺序绘制内存内容 ，因此您可以查看它的矢量长度窗口。

在文本编辑器中，在某些内容的左侧添加新文本并将现有文本移到右侧是没有问题的，因此向评论添加更多元素不是问题。

MSE-first 表示法的两个主要缺点是:

很难向后键入字母(例如 h g f e | d c b a 用于 32 位元素的 AVX 向量)，所以我有时只是从右侧开始并键入 a ，左箭头，b , 空格, ctrl-左箭头, c ，空间，...或类似的东西。

与 C 数组初始化器顺序相反。通常没有问题，因为 _mm_set_epi*使用 MSE 优先顺序。 (使用 _mm_setr_epi* 匹配 LSE 优先评论)。

一个 MSE-first 很好的例子是在尝试设计 256b vpalignr 的车道交叉版本时。 : 看我对那个问题的回答
How to concatenate two vector efficiently using AVX2? .这包括 MSE 优先表示法中的设计说明。

作为另一个示例，考虑在整个向量中实现可变计数字节移位。你可以制作一张 pshufb 的表格控制向量，但这将是对缓存占用的巨大浪费。从内存中加载滑动窗口要好得多:

/*  Example of using MSE notation for memory as well as vectors

// 4-element vectors to keep the design notes compact
// I started by just writing down a couple rows of this, then noticing which way they lined up
<< 3:                       00 FF FF FF
<< 1:                 02 01 00 FF
   0:              03 02 01 00
>> 2:        FF FF 03 02
>> 3:     FF FF FF 03
>> 4:  FF FF FF FF

       FF FF FF FF 03 02 01 00 FF FF FF FF
  highest address                       lowest address
*/

#include <immintrin.h>
#include <stdint.h>
// positive counts are right shifts, negative counts are left
// a left-only or right-only implementation would only have one side of the table,
// and only need 32B alignment for the constant in memory to prevent cache-line splits.
__m128i vshift(__m128i v, intptr_t bytes_right)
{   // intptr_t means the caller has to sign-extend it to the width of a pointer, saving a movsx in the non-inline version

   // C11 uses _Alignas, C++11 uses alignas
    _Alignas(64) static const int32_t shuffles[] = { 
        -1, -1, -1, -1,
        0x03020100, 0x07060504, 0x0b0a0908, 0x0f0e0d0c,
        -1, -1, -1, -1
    };  // compact but messy with a mix of ordering :/
    const char *identity_shuffle = 16 + (const char*)shuffles;  // points to the middle 16B

    //  count &= 0xf;  tricky to efficiently limit the count while still allowing >>16 to zero the vector, and to allow negative.
    __m128i control = _mm_load_si128((const __m128i*) (identity_shuffle + bytes_right));
    return _mm_shuffle_epi8(v, control);
}

这是 MSE 优先的最坏情况 ，因为右移会从更左的位置打开一个窗口。在 LSE 优先表示法中，它可能看起来更自然。尽管如此，除非我得到了一些倒退的东西:P，我认为它表明你可以成功地使用 MSE 优先表示法，即使是你认为很棘手的事情。它并没有让人费解或过于复杂。我刚开始写下随机播放控制向量，然后将它们排成一行。如果我使用 uint8_t shuffles[] = { 0xff, 0xff, ..., 0, 1, 2, ..., 0xff };，我可以在转换为 C 数组时稍微简单一些。 .
这个我没测试过，只有 that it compiles to one instruction :

    vpshufb xmm0, xmm0, xmmword ptr [rdi + vshift.shuffles+16]
    ret

当您可以使用位移而不是随机播放指令时，MSE 让您更容易注意到，以减少端口 5 上的压力。 psllq xmm, 16/ _mm_slli_epi64(v,16)将字元素左移一位(在 qword 边界处归零)。或者当您需要移位字节元素，但唯一可用的移位是 16 位或更宽时。最窄的每元素可变移位是 32 位元素 ( vpsllvd )。

当使用更大或更小的粒度 shuffle 或 blends 时，MSE 可以轻松获得正确的 shuffle 常数，例如 pshufd当您可以将成对的单词元素放在一起时，或 pshufb在整个向量中打乱单词(因为 pshuflw/hw 是有限的)。
_MM_SHUFFLE(d,c,b,a)也按 MSE 顺序排列。将它写成单个整数的任何其他方式也是如此，例如 C++14 0b11'10'01'00或 0xE4 (身份洗牌)。使用 LSE 优先表示法将使您的 shuffle 常量相对于您的评论看起来“向后”。 (除了 pshufb 常量，你可以用 _mm_setr 编写)

关于x86 - 显示向量寄存器的约定，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/41351087/

24

4

0

文章推荐： php - MySQL通配符过滤特殊字符使用LIKE

文章推荐： file - 通过tcp/ip流式传输不断增长的文件

文章推荐： c# - 根据 Enabled 属性更改用户控件上的属性

JavaRMI遇到的ConnectionrefusedtoHost:127.x.x.x/192.x.x.x/10.x.x.x问题解决方法
问题故障解决记录 -- Java RMI Connection refused to host: x.x.x.x .... 在学习JavaRMI时，我遇到了以下情况问题原因：可
haskell - 为什么 `f x = x x` 和 `g x = x x x x x` 有相同的类型
我正在玩 Rank-N-type 并尝试输入 x x .但我发现这两个函数可以以相同的方式输入，这很不直观。 f :: (forall a b. a -> b) -> c f x = x x g ::
java - 比较两个版本字符串(4.x.x.x、5.x.x.x)
这个问题已经有答案了: How do you compare two version Strings in Java? (31 个回答) 已关闭 8 年前。有谁知道如何在Java中比较两个版本字符串
java - x=20;x=++x+++x + x++ ;java中x的最终值为65
这个问题已经有答案了: How do the post increment (i++) and pre increment (++i) operators work in Java? (14 个回答)
linux - 如何获取完整的目标IP地址(x.x.x.x/x)netstat命令？
下面是带有 -n 和 -r 选项的 netstat 命令的输出，其中目标字段显示压缩地址 (127.1/16)。我想知道 netstat 命令是否有任何方法或选项可以显示整个目标 IP (127.1.
logic - 我如何根据精益原则证明 (∀ x, ¬ A x) → ¬ ∃ x, A x？
我知道要证明 : (¬ ∀ x, p x) → (∃ x, ¬ p x) 证明是: theorem : (¬ ∀ x, p x) → (∃ x, ¬ p x) := begin intro n
c++ - x*x != x*x 在自动变量中？
x * x 如何通过将其存储在“auto 变量”中来更改？我认为它应该仍然是相同的，并且我的测试表明类型、大小和值显然都是相同的。但即使 x * x == (xx = x * x) 也是错误的。什么
c# - 如何将表达式 x=>!x 重写为 x=>x!=true 并将 x=>x 重写为 x=>x==true
假设，我们这样表达: someIQueryable.Where(x => x.SomeBoolProperty) someIQueryable.Where(x => !x.SomeBoolProper
regex - 为什么正则表达式引擎选择从 `..X` 匹配模式 `.X|..X|X.`？
我有一个字符串 1234X5678 我使用这个正则表达式来匹配模式 .X|..X|X. 我得到了 34X 问题是为什么我没有得到 4X 或 X5？为什么正则表达式选择执行第二种模式？最佳答案这里
javascript - 可以 (x++ !== x) && (x++ === x);返回真？
我的一个 friend 在面试时遇到了这个问题找到使该函数返回真值的 x 值 function f(x) { return (x++ !== x) && (x++ === x); } 面试官
java - 为什么通常 Map = new HashMap() 而不是 HashMap = new HashMap()？
这个问题在这里已经有了答案: 10年前关闭。 Possible Duplicate: Isn't it easier to work with foo when it is represented b
针对多个版本的 Android 应用程序开发，即 1.x、2.x.x、3.x.x、4.x.x
我是 android 的新手，我一直在练习开发一个针对 2.2 版本的应用程序，我需要帮助了解如何将我的应用程序扩展到其他版本，即 1.x、2.3.x、3 .x 和 4.x.x，以及一些针对屏幕分辨率
x = [x] && x.push(x) when var x; 之间的 javascript 数组混淆
为什么案例 1 给我们 :error: TypeError: x is undefined on line... //case 1 var x; x.push(x); console.log(x);
python - Python 列表中 x += x 和 x = x + x 的区别
代码优先: # CASE 01 def test1(x): x += x print x l = [100] test1(l) print l CASE01 输出: [100, 100
java - 如何确定看起来像这样的大 O : (x -1) + (x - 2) + (x - 3) . .. (x - x)
我正在努力温习我的大计算。如果我有将所有项目移至 'i' 2 个空格右侧的函数，我有一个如下所示的公式: (n -1) + (n - 2) + (n - 3) ... (n - n) 第一次迭代我必须
javascript - 从 IP 字符串计算 IP 范围等于 x.x.x.x/x
给定 IP 字符串(如 x.x.x.x/x)，我如何或将如何计算 IP 的范围最常见的情况可能是 198.162.1.1/24但可以是任何东西，因为法律允许的任何东西。我要带198.162.1.1/
javascript - 为什么 var x = x = x || {} 比 var x = x || 更彻底{}？
在我作为初学者努力编写干净的 Javascript 代码时，我最近阅读了 this article当我偶然发现这一段时，关于 JavaScript 中的命名空间: The code at the ve
javascript - var x = x || {}；与 x = window.x || {}；
我正在编写一个脚本，我希望避免污染 DOM 的其余部分，它将是一个用于收集一些基本访问者分析数据的第 3 方脚本。我通常使用以下内容创建一个伪“命名空间”: var x = x || {}; 我正在
docker - create_network():无法分配网关(x.x.x.x):该地址已在测试用例中使用
我尝试运行我的test_container_services.py套件，但遇到了以下问题： docker.errors.APIError：500服务器错误：内部服务器错误（“ b'{” message
c# - "x as X != null"和 "x is X"总是返回相同的结果吗？
是否存在这两个 if 语句会产生不同结果的情况？ if(x as X != null) { // Do something } if(x is X) { // Do something } 编

首页

博学

6Ren·AI

商城

x86 - 显示向量寄存器的约定