- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我可以使用 MOV
将存储在内存中的数据项移动到我选择的通用寄存器中。操作说明。
MOV r8, [m8]
MOV r16, [m16]
MOV r32, [m32]
MOV r64, [m64]
MOV r24, [m24]
? (我很欣赏后者是不合法的)。
rax
.
section .data ; Section containing initialized data
14 DogsName: db "PippaChips"
15 DogsNameLen: equ $-DogsName
eax
的“上半部分” ,
rax
,所以这在第一个障碍处下降,因为我最终会覆盖首先移动的任何数据。
26 mov al, byte [DogsName + 2] ; move the character “p” to register al
27 shl rax, 16 ; shift bits left by 16, clearing ax to receive characters “pi”
28 mov ax, word [DogsName] ; move the characters “Pi” to register ax
MOV r24, [m24]
的说明?有没有办法选择一系列内存地址,而不是提供偏移量和指定大小运算符。如何将 3 个字节从内存移动到 ASM x86_64 中的寄存器?
最佳答案
如果您知道 3 字节 int 不在页面末尾,通常您会 执行 4 字节加载并屏蔽掉随您想要的字节而来的高垃圾 , 或干脆忽略它 _0x104567如果您正在处理不关心高位的数据。 Which 2's complement integer operations can be used without zeroing high bits in the inputs, if only the low part of the result is wanted?
与商店 1 不同,加载“不应该”的数据永远不会成为正确性问题,除非您进入未映射的页面。 (例如,如果 db "pip"
出现在页面的末尾,而下一页未映射。)但在这种情况下,您知道它是较长字符串的一部分,因此如果宽负载扩展到下一个缓存,唯一可能的缺点是性能行(因此负载跨越缓存行边界)。
Is it safe to read past the end of a buffer within the same page on x86 and x64?
对于任何 3 个字节(如果 3 个字节本身没有在两个缓存行之间拆分,甚至不跨越缓存行边界),无论是之前的字节还是之后的字节都将始终可以安全访问。在运行时弄清楚这一点可能不值得,但是 如果您知道编译时的对齐方式 ,则可以执行以下任一操作
mov eax, [DogsName-1] ; if previous byte is in the same page/cache line
shr eax, 8
mov eax, [DogsName] ; if following byte is in the same page/cache line
and eax, 0x00FFFFFF
我假设您想要 zero-extend the result into eax/rax, like 32-bit operand-size ,而不是像 8 位或 16 位操作数大小的寄存器写入那样与 EAX/RAX 的现有高字节合并。如果确实要合并,请屏蔽旧值和 OR
。或者,如果您从 [DogsName-1]
加载,因此您想要的字节位于 EAX 的前 3 个位置,并且您想要合并到 ECX: shr ecx, 24
/shld ecx, eax, 24
将旧的顶部字节向下移动到底部,然后在移动的同时将其移回3 个新字节。 (不幸的是,没有内存源形式的 shld
。半相关: efficiently loading from two separate dwords into a qword 。) shld
在 Intel CPU(尤其是 Sandybridge 和更高版本:1 uop)上很快,但在 AMD ( http://agner.org/optimize/ ) 上不是。ax
)在 Core2/Nehalem 以外的 CPU 上相当不错(当您在组装 eax
后读取 movzx eax, byte [DogsName + 2]
时,它将停止插入合并 uop)。但是从 rax
开始打破对 ax
旧值的依赖。DEFAULT REL ; compilers use RIP-relative addressing for static data; you should too.
movzx eax, byte [DogsName + 2] ; avoid false dependency on old EAX
movzx ecx, word [DogsName]
shl eax, 16
or eax, ecx
这需要额外的指令,但避免写入任何部分寄存器。但是,在 Core2 或 Nehalem 以外的 CPU 上,2 次加载的最佳选择是编写 rax
。 (Core2 之前的 Intel P6 不能运行 x86-64 代码,没有部分寄存器重命名的 CPU 在编写 ax
时会合并到 AH
中)。 Sandybridge 仍然重命名 AX,但合并仅花费 1 uop,没有停顿,即与 OR 相同,但在 Core2/Nehalem 上,前端在插入合并 uop 时会停顿大约 3 个周期。AX
, not AL
or mov r16, m
,因此在这些 CPU 上,AX 的负载是微融合负载+合并。 Agner Fog 没有列出 Silvermont 或 Ryzen(或我查看的电子表格中的任何其他选项卡)上的 mov ax, [mem]
的额外惩罚,因此大概其他没有部分 reg 重命名的 CPU 也会将 test esi, (1<<12)-1
作为加载+合并执行。movzx eax, byte [DogsName + 2]
shl eax, 16
mov ax, word [DogsName]
; when read eax:
; * Sandybridge: extra 1 uop inserted to merge
; * core2 / nehalem: ~3 cycle stall (unless you don't use it until after the load retires)
; * everything else (including IvB+): no penalty, merge already done
; pointer to m24 in RSI
; result: EAX = zero_extend(m24)
test sil, 111111b ; test all 6 low bits. There's no TEST r32, imm8, so REX r8, imm8 is shorter and never slower.
jz .aligned_by_64
mov eax, [rsi-1]
shr eax, 8
.loaded:
...
ret ; end of whatever large function this is part of
; unlikely block placed out-of-line to keep the common case fast
.aligned_by_64:
mov eax, [rsi]
and eax, 0x00FFFFFF
jmp .loaded
所以在一般情况下,额外的成本只是一个未采取的 test-and-branch uop。sil
。与使用 imm8
测试 si
不同,使用 imm16
测试 test al, imm8
不值得在 Intel CPU 上使用 LCP 停顿以节省 1 个字节的代码。当然,如果您可以将指针放在 ra/b/c/dx,您不需要 REX 前缀,而且 MASKMOVDQU
甚至还有一个紧凑的 2 字节编码。) ; pointer to m24 in RSI
; result: EAX = zero_extend(m24)
xor ecx, ecx
test sil, 7 ; might as well keep it within a qword if we're not branching
setnz cl ; ecx = (not_start_of_line) ? : 1 : 0
sub rsi, rcx ; normally rsi-1
mov eax, [rsi]
shl ecx, 3 ; cl = 8 : 0
shr eax, cl ; eax >>= 8 : eax >>= 0
; with BMI2: shrx eax, [rsi], ecx is more efficient
and eax, 0x00FFFFFF ; mask off to handle the case where we didn't shift.
pmovmskb eax, xmm0
,不要与 movntdq
混淆)可以存储来自 MMX 或 XMM reg 的 24 位,给定一个仅设置低 3 个字节的向量掩码。但是它们几乎从来没有用过,因为它们很慢并且总是有 NT 提示(所以它们围绕缓存写入,并像 vmovdqu8
一样强制逐出)。 (AVX dword/qword 掩码加载/存储指令不暗示 NT,但不能用于字节粒度。)eax
为您提供加载和存储的字节掩码 对被掩码的字节进行故障抑制。 (即,如果 16 字节负载包括未映射页面中的字节,只要未为该字节设置掩码位,您就不会出现段错误。但这确实会导致大幅减速)。所以在微架构上它仍然是一个 16 字节的加载,但对架构状态的影响(即除了性能之外的一切)正是真正的 3 字节加载/存储(使用正确的掩码)的效果。;; probably slower than the integer way, especially if you don't actually want the result in a vector
mov eax, 7 ; low 3 bits set
kmovw k1, eax ; hoist the mask setup out of a loop
; load: leave out the {z} to merge into the old xmm0 (or ymm0 / zmm0)
vmovdqu8 xmm0{k1}{z}, [rsi] ; {z}ero-masked 16-byte load into xmm0 (with fault-suppression)
vmovd eax, xmm0
; store
vmovd xmm0, eax
vmovdqu8 [rsi]{k1}, xmm0 ; merge-masked 16-byte store (with fault-suppression)
这与 NASM 2.13.01 一起组装。 IDK 如果您的 NASM 足够新以支持 AVX512。您可以使用英特尔的 Software Development Emulator (SDE) 在没有硬件的情况下玩 AVX512vmovdqu8
只需 2 uop(一旦设置了掩码)。 (但是,用于 Skylake-X 的 http://instlatx64.atw.hu/'s 电子表格 of data from IACA 不包括带掩码的 vmovdqu/a
,只有未掩码的形式。这些确实表明它仍然是一个单一的 uop 负载,或者像常规 lock cmpxchg
一样的微融合存储)cmpxchg
到位,以确保您不会踩到另一个线程对额外字节的更新,但显然,执行 2 个单独的存储比原子 ojit_code 重试循环对性能要好得多。 关于assembly - 如何将 3 个字节(24 位)从内存移动到寄存器?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47832367/
我被告知“汇编”是您在文件中编写的内容,让您的“汇编程序”将其转换为二进制代码。 但我看到这两个术语在各种作品中混合搭配。我什至听说你编写了“汇编器”,然后“汇编器”使其可执行。 正确的用词是什么?
我在正确终止用 Assembly 编写的 16 位 DOS 程序时遇到问题。这是部分代码: .386P .model flat stack_s segment stack 'stack'
我需要多少档才能正确执行以下指令。我对我所做的事情有些困惑,所以我在这里看到专家的答案。 lw $1,0($2); beq $1,$2,Label; 请注意,检查是否会发生分支将在解码阶段完成。但是在
我正在尝试在汇编中进行简单的乘法运算,但是由于某些原因,当标记了MUL函数时,我看不到寄存器会发生变化。 mov bx, 5 mov cx, 10 mul cx 最佳答案 这些称为指令,它们指定
我正在尝试在 Assembly 中实现递归斐波那契程序。但是,我的程序崩溃了,出现了未处理的异常,我似乎无法找出问题所在。我不怀疑这涉及我对堆栈的不当使用,但我似乎无法指出哪里...... .386
我编写了以下代码: .386 .model small .stack 100h .data text db "Paper",0 .code start : lea dx ,
我有一个用汇编语言编写的裸机 ARM 的启动代码,我正在尝试了解它是如何工作的。该二进制文件被写入一些外部闪存中,并在启动时将其自身的一部分复制到 RAM 中。尽管我读过这篇文章wikipedia e
我在数据部分定义了一个二维数组和两个一维数组(一个用于列总和,一个用于行总和),并且我编写了一个函数,将二维数组求和到一维数组中。我使用 eax 和 ebx 作为二维数组的索引,但是当 eax 或 e
我正在开始组装,我正在使用 nasm 来组装代码,我正在尝试处理驻留在内存中的字符串并更改它,我想检查一个字节是否在某个范围内(ascii),这样我就可以决定如何处理它,我似乎不知道如何检查一个值是否
虽然您通常不希望将一个整体程序集用于小型项目以外的任何事情,但可能会将事物分离得太多。 组装分离过多的迹象/气味是什么? 最佳答案 第一个(明显的)是:在一个有很多项目的解决方案中,其中只有少数(比如
我正在尝试编写斐波那契的汇编代码版本,它给出第 n 个斐波那契数并返回它。 出于某种原因,它在存储斐波那契数的返回值和添加它们时遇到问题。 我希望它打印第 n 个斐波那契数。 我对我的代码做了一些修改
我有一个最小的、可重现的示例有两个问题,该示例具有三个针对 .NET Core 3.1 的项目。但我也想以 .NET Standard 2.0 为目标。 该示例适用于需要在运行时加载程序集并使用提供的
: 运算符在汇编中做什么?代码如下:DS:DX我还没有找到该运算符(operator)的任何文档。(我正在使用 NASM) 最佳答案 那实际上只是一个寄存器分隔符,而不是运算符。这意味着使用 DX 寄
我在哪里可以找到为 gmp-5.0.0 编写的程序的汇编代码我正在使用 UBUNTU 和 G++ 编译器..编译代码的命令是“g++ test.cc -o outp -lgmp” 实际上我想知道在 1
我是组装新手,我有一个关于如何表示负数的问题 我有三个 DWORDS 变量,比如说: result DWORD 0 i DWORD 3 j DWORD 5 我想计算这个公式:result = i -
我想编写我的第一个汇编程序。我在论文上做了一些程序,但这是我第一次使用编译器。我正在使用 ideone .我的程序很简单, 翻译 A = 5 - A到 assembly NEG A ADD A, 5
程序集,masm 嘿,我写了宏来打印存储在 dane1 段中的 1 字节值。 我将值除以 16,然后将提醒推送到堆栈,直到值==0。然后我弹出提醒将它们转换为 ASCII 码,并打印它们。 有人可以看
我正在研究 nasm 的一个大学项目。唯一的问题是我无法生成 162 和 278 之间的偶数随机数。我尝试了很多算法,但似乎无法限制范围内的数字。 是否有一个小技巧或调整来获得所需的范围内的数字?目的
终于在无数次错误的漫长 session 之后,希望这是最后一个。 没有编译或运行时错误,只是一个逻辑错误。 编辑:(固定伪代码) 我的伪代码: first = 1; second = 1; thir
我知道在程序集r0中调用函数时,包含第一个参数,直到r3是第四个。我知道,当它超过四个时,将使用堆栈指针,但是我不太确定具体细节。 r0-r3仍然保持前四个,其余的进入堆栈吗?我正在看下面的程序集,试
我是一名优秀的程序员,十分优秀!