- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
在查看了x86/x64体系结构中的寄存器表之后,我注意到有完整的128位,256位和512位寄存器部分,我从未见过它们在汇编或反编译的C/C++代码中使用: XMM(0-15)代表128,YMM(0-15)代表256,ZMM(0-31)512。
在做了一点挖掘之后,我必须使用2个64位运算来对128位数字进行数学运算,而不是使用通用的add
,sub
,mul
和div
运算。如果是这种情况,那么拥有这些扩展的寄存器集到底有什么用,并且可以使用任何汇编操作来对其进行操作?
最佳答案
这些用于
you have to use 2 64 bit operations in order to perform math on a 128 bit number
add rax, rbx; adc rdx, rcx
而不是大量指令。看
float
或
double
,则很可能将它们存储在XMM寄存器的下部,并通过以
ss
(标量单)或
sd
(标量双)结尾的指令进行操作
ST(x)
寄存器,可与
x87 co-processor一起使用来进行浮点数学运算。但是,它们速度慢且难以预测。速度慢,因为默认情况下操作会以更高的精度进行,这固有地需要更多的工作,并且在必要时还需要
requires a store then load to round to lower precision。高精度也是不可预测的。乍一看这很奇怪,但是很容易解释,例如某些操作在
float
或
double
精度上上溢或下溢,但在
long double
精度上不上。这会导致32和64位build1中的许多错误或意外结果
// f = x/z + y*z
x87:
fld dword ptr [esp + 12]
fld st(0)
fdivr dword ptr [esp + 4]
fxch st(1)
fmul dword ptr [esp + 8]
faddp st(1)
ret
SSE:
divss xmm0, xmm2
mulss xmm1, xmm2
addss xmm0, xmm1
ret
AVX:
vdivss xmm0, xmm0, xmm2
vmulss xmm1, xmm1, xmm2
vaddss xmm0, xmm0, xmm1
ret
long double
type is not available in MSVC anymore的原因之一
ST(x)
的相同
MMX
寄存器。 MMX可能代表Multiple Math eXtension或Matrix Math eXtension,但是恕我直言,它很可能是MultiMedia eXtension,因为多媒体和互联网在当时变得越来越重要。在多媒体解决方案中,您经常必须对每个像素,纹理像素,声音样本执行相同的操作……
for (int i = 0; i < 100000; ++i)
{
A[i] = B[i] + C[i];
D[i] = E[i] * F[i];
}
ST
寄存器或缺少浮点支持),当使用
Streaming SIMD Extensions (SSE)扩展SIMD指令集时,英特尔决定为它们提供一套全新的名为XMM的寄存器,该寄存器集的长度是原来的两倍(128位) ),因此我们现在可以一次处理16个字节。而且它还一次支持多个浮点运算。然后,Intel在
Advanced Vector Extensions (AVX)中将XMM扩展为256位YMM,并在
AVX-512中将其长度再次加倍(这也使寄存器的数量在64位模式下增加到32个)。现在您可以一次处理
十六个32位整数
memcpy
实现一次最多可移动16、32或64个字节,具体取决于最大的寄存器宽度,而不是像最简单的C解决方案那样一一对应。
关于assembly - 128位至512位寄存器有什么用?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52932539/
我无法理解如何使用一些旧的 VGA 代码在这个示例中设置序列 Controller 寄存器: mov dx,SC_INDEX mov ax,0604h out dx,ax
我希望对 zmm 0-31 寄存器集的四字元素执行整数算术运算并保留这些运算产生的进位位。看来这只有在通用寄存器集中处理数据时才有可能。 因此,我想将信息从 zmm 0-31 寄存器之一复制到通用寄存
ARM 64中包含多种寄存器,下面介绍一些常见的寄存器。 1 通用寄存器 ARM 64包含31个64bit寄存器,记为X0~X30。 每一个通用寄存器,它的低32bit都可以被访问,记为W0~W
1.寄存器 组合逻辑存在一个最大的缺点就是存在竞争与冒险,系统会产生不定态;使用时序逻辑电路就会极大的改善这种情况 寄存器具有存储功能,一般是由D触发器构成,由时钟脉冲控制,每个D触发器能够
使用 $gp 是否存在危险?注册以存储值?我想我的问题是 $gp 的真正功能是什么?它是否以某种方式在幕后调用,以便如果我使用它,事情可能会变得非常非常错误? 最佳答案 那么,$gp register
我遇到了这段代码的问题,我无法弄清楚问题出在哪里。所以当我运行这段代码时:if $row["count"] > 0 else块运行和 $_SESSION["error"]设置。 当$row["coun
所以我正在做二进制炸弹的变体。这就是阶段 0x0000000000401205 : sub $0x8,%rsp 0x0000000000401209 : cmp $0x3,
我在一个名为 (EmployeeDetailKey - varchar(10)) 的字段中获得了一个值,其中包含顺序值,例如 00001, 00002, 00003.... 它位于 Employeed
我有一个要求,应该为每个调用的线程分配一个计数器变量。但我没有得到预期的结果,实际上计数器在线程中重复。我创建了一个虚拟表和一个过程来将计数器值插入到表中。无论如何,是否可以更改代码以便线程获得递增的
预期输出:需要打印第4季度的wage_amt +--------------+--------------+--------------+--------------+ | wages_amt_q1
如何匹配模式 abc_[someArbitaryStringHere]_xyz? 为了澄清,我希望正则表达式能够匹配以下性质的字符串: abc_xyz、abc_asdfsdf_xyz、abc_32rw
从下拉列表(自定义)中选择一个值而不是常规下拉列表,它有很多下拉值 我可以用代码选择第一个值 find('.selected', :text=>arg1,exact: false).click 但无法
这个问题不太可能帮助任何 future 的访问者;它只与一个小的地理区域、一个特定的时间点或一个非常狭窄的情况有关,这些情况并不普遍适用于互联网的全局受众。为了帮助使这个问题更广泛地适用,visit
我有 .csv 文件中的数据,它包含 2 列 x 轴和 y 轴。从 .csv 文件读取轴,然后使用拉伸(stretch)指数函数拟合数据,但显示错误。 这里我给出示例数据以方便理解。 我的函数是f(x
我正在尝试使用以下汇编代码将磁盘扇区加载到内存中,但正如我在终端中使用一些 int 0x10 时发现的那样,它不起作用的原因是它陷入了无限循环。我以为循环会自动为我递减 cx 寄存器。下面是代码,其中
我正在尝试编写一个脚本,该脚本将在 vim 中打开一个文件并将其中的特定行复制到 vim 的寄存器之一中。当脚本再次运行时,它会决定再次打开文件,然后将 vim 寄存器中的值粘贴回。实际上,脚本应该在
我目前正在尝试弄清楚如何将指针寄存器 SI 指向的内存中的第一个字节添加到 AX 寄存器的当前内容中。 因此,如果 SI 包含某个地址,并且该地址在内存中的值是:00 和 01,我希望将 00 添加到
我试图将两个 16 位数字与以下 NASM 代码相乘: mov ax, [input1] mov bx, [input2] mul bx 前面代码的结果存储在 DX:AX 我试图使用来自单独库“pri
我正在尝试修改 rip 寄存器(只是为了好玩)。 buffer 应该是内存地址,所以不知道为什么会得到Error: operand type mismatch for 'movq' #include
我可以告诉gcc-style inline assembly把我的__m512i变量到特定 zmm注册,如 zmm31 ? 最佳答案 就像在根本没有特定寄存器约束的目标(如 ARM)上一样,使用 lo
我是一名优秀的程序员,十分优秀!