loops - 如何增加寄存器中的每个字节？ (64位，Linux，NASM)-6ren

loops - 如何增加寄存器中的每个字节？ (64位，Linux，NASM)

转载作者：行者123 更新时间：2023-12-01 23:36:38

25

4

我最近开始学习汇编，并且为自己建立了一个小项目。目标是使用循环。我想将0x414141移至RAX，然后在RAX上循环，并递增每个字节，以便RAX在代码末尾包含0x424242。

我曾尝试增加字节rax，但是在尝试编译时总是会从NASM收到错误消息。当前，我有最后的工作代码，它将使RAX递增等于0x414144。我似乎找不到任何看起来/听起来与我想做的接近的东西。 (但是有多难，对吧？)

global _start

section .text
_start:
    mov rax, 0x414141
    mov rcx, 3
strLoop:
    inc rax
    loop strLoop

    mov rax, 60
    mov rdi, 0
    syscall
    ; ^ exit

当我在GDB中查看RAX时，在这段代码中，我希望它是0x414144。但是，我想使代码达到0x424242的水平，我想这将是该项目的预期结果。

最佳答案

像通常的asm一样，有很多好的方法来实现您想要的。最重要的问题是字节之间的进位传播是否可能是一个问题。

选项1(带进位传播的简单加法)

如果只关心64位RAX的低4字节，则可能只应将EAX用于32位操作数大小。 (写32位寄存器零扩展到完整的64位寄存器中，这不同于您写入8位或16位寄存器时的情况。)

因此，正如评论中提到的，这是对您的问题的一种解释的窍门。

 add   eax, 0x010101

如果您确实想要RAX的每个字节，则为8个字节。但是，只有 mov支持64位立即数，而不支持 add。您可以在另一个寄存器中创建一个常量:

 mov   rdx, 0x0101010101010101
 add   rax, rdx

上面使用单个宽 add的方法的缺点是 某个字节中的溢出会传播到下一个较高的。因此，这并不是真正的4或8个独立字节的加法运算，除非您知道每个单独的字节都不会溢出并进入下一个字节。 (即 SWAR)

例如:如果您有 eax = 0x010101FF并从上面添加常数，则不会得到 0x02020200，而是 0x02020300(最低有效字节溢出到第二最低有效字节中)。

选项2(无进位传播的循环)

由于您指示使用来表示问题来解决您的问题，因此可能的方法也只需要两个寄存器，它是:
[global func] func: mov rax, 0x4141414141414141 mov rcx, 8 .func_loop: ; NASM local .label is good style within a function inc al ; modify low byte of RAX without affecting others rol rax, 8 dec rcx jne .func_loop ; RAX has been rotated 8 times, back to its original layout ret

这将增加rax的最低有效字节(不影响rax的其他位)，然后将rax向左旋转8位，然后重复。

您可以旋转16位(4次)并执行
inc ah ; doing AH first happens to be better with Skylake's partial-register handling: inc al can run in parallel with this once AH is already renamed separately. inc al rol rax, 16

作为循环体，但修改AH通常比修改AL更为worse for partial-register slowdowns，尽管它可以减少Ryzen之类的CPU的开销，这些CPU不会将RAX单独重命名为AH。 (有趣的事实:在Skylake上，此延迟在inc al; inc ah顺序较慢的情况下可以达到收支平衡，因为inc ah直到inc al之后才能启动，因为modern Intel CPUs don't rename the low-8 partial registers与完整reg分开，只有高8。

请注意，loop指令在Intel CPU上为slow，在功能上与此等效(但不修改标志):
dec rcx jne func_loop

还要注意，在某些系统上执行add al, 1实际上可能比执行inc al稍快一些，如here所述。

(编者注:除了rol以外的其他1只需要修改CF，而inc / dec只需修改其他标记(SPAZO)。因此，如果使用部分标记重命名inc / rol / dec不会使inc / rol耦合依赖关系链进入dec循环计数器依赖关系链，并使其变得比需要的慢(在Skylake上进行了测试，实际上对于较大的循环计数，它确实以2个周期/迭代吞吐量运行)。但是dec会是一个问题Silvermont，其中inc / dec确实合并为FLAGS。将其中之一设为sub或add会破坏通过FLAGS的依赖链。)

选项3(不带进位传播的SIMD加法)

使用专用的SSE2 SIMD指令可能是实现此溢出行为的最有效方法是:
default rel ; use RIP-relative addressing by default section .rodata align 16 ; without AVX, 16-byte memory operands must be aligned vec1: times 8 db 0x01 dq 0 section .text [global func] func: mov rax, 0x4141414141414141 movq xmm0, rax paddb xmm0, [vec1] ; packed-integer add of byte elements movq rax, xmm0 ret

这会将rax的值移到xmm0的下半部分，对预定义的常数(按字节顺序添加128位长，但高64位与我们无关，因此为零)进行字节加法，然后将结果写回再次输入rax。

输出符合预期:rax = 0x01010101010101FF产生0x0202020202020200(最低有效字节溢出)。

请注意，通过整数添加(而不是mov -immediate)也可以使用内存中的常量。

MMX只允许使用8字节的内存操作数，但是在返回之前，您需要EMMS； x86-64 System V ABI指定FPU在 call /重拨时应处于x87模式。

您可以使用一种技巧而不是从内存中加载常量来动态生成它。用pcmpeqd xmm1, xmm1生成一个全 vector 是有效的。但是如何使用它来添加1呢？ SIMD右移仅适用于word(16位)或更大的元素，因此需要几个指令将其转换为0x0101...的 vector 。 Or SSSE3 pabsb 。

诀窍是，添加1与减去-1相同，而全1是二进制补码-1。
movq xmm0, rax pcmpeqd xmm1, xmm1 ; set1( -1 ) psubb xmm0, xmm1 ; packed-integer sub of (-1) byte elements movq rax, xmm0

请注意，SSE2还具有用于使加法和减法饱和的指令，其中 paddsb 或psubsb表示带符号的饱和度， paddusb 或psubusb表示无符号的饱和度。 (对于无符号饱和度，您不能使用减-1技巧；它总是会饱和为0，而不是回绕到原始值之上的1。)

关于loops - 如何增加寄存器中的每个字节？ (64位，Linux，NASM)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/57648305/

25

4

0

文章推荐： r - 聚合具有重叠日期范围的行的列值

文章推荐： idris - 为什么 Idris 会给我以下代码的类型不匹配错误？

文章推荐： xamarin - SetSound - 此 API 现在已过时。用什么？

loops - 好奇 Haskell 中如何评估 "loop = loop"
我认为这样的表达式会导致 Haskell 永远评估。但是 GHCi 和编译程序中的行为让我感到惊讶。例如，在 GHCi 中，这些表达式一直阻塞到 I Control+C ，但不消耗 CPU。看起来像
for-loop - 尽管我们已经有了 "for loop"或反之亦然，为什么还要创建 "while loop"？
就目前情况而言，这个问题不太适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持，但这个问题可能会引发辩论、争论、民意调查或扩展讨论。如果您觉得这个问题可以改进并可能重新开放，visit
C# If loop within a for loop within a if loop
如果可以的话，我想减少这段代码: class Alarm { internal static void isGreaterThanOrBelowValue(int min, int max,
loops - 批处理 - "for/F loop"内部 "for/L loop"
我有以下问题: 我想创建一个批处理文件，循环访问一定数量的 IP 地址，以停止远程 PC 上的某个服务。因为停止过程需要一些时间，所以我需要第二个循环来查询服务的状态并等待，直到服务达到“已停止”状
loops - loop{} 运行了两次？
我已经完整地编写了“The Rust Programming Language”在线书籍中的程序，chapter 2 .我还进一步开发了它:通过添加一个简单的问题/响应，用户可以通过输入“y”再次玩游
loops - clojure for loop，将值存储在集合或映射中
这个人已经困扰了我一阵子了，我们应该如何在集合中存储值或在for循环中映射？ (let [s #{}] (for [ i (range 10) j (range 1
loops - x86 LOOP 指令究竟是如何工作的？
mov ecx, 16 looptop: . . . loop looptop 这个循环会执行多少次？如果 ecx
for-loop - XTend For-Loop 支持和添加范围支持
我似乎无法找到一种在 Xtend 中表达以下内容而不诉诸 while 循环的好方法: for(int i = 0; i range(int stop) { range(0, stop) }
loops - x86 程序集 : Loops!
好吧，长话短说，我正在学习汇编，我正在尝试循环打印出 ascii 字符“0”-“9”。因此，我完成了我在示例中看到的所有基础知识，例如使用 pushad 和 popad 保存寄存器状态，分配堆栈空间，
javascript - 有没有办法制作 "for loop of for loops"？
我正在尝试为自己编写一个扑克计算器，我有一个 5 级深的 for 循环。为此，我将 for 循环一个接一个地嵌套。我正在寻找一种方法来简单地使用一个循环(或函数)，它可以告诉我想去多少层。对于这个例
python - for loop in for loop 的更快替代方案
我有一本包含约 150,000 个键的字典。没有重复的键。每个 key 的长度为 127 个字符，每个 key 在 1-11 个位置上有所不同(大多数差异发生在 key 的末尾)。每个键的值是一个唯一
loops - 在 (LOOP FOR A ...) 的宏扩展期间出错
我正在尝试编写一个 Lisp 程序来实现与点和方 block 非常相似的棋盘游戏，这意味着我有两个玩家相互竞争但可以连续移动。我正在尝试实现最简单的 minimax 算法来实现这一点，没有 alpha
算法时间复杂度分析(for loop with inner while loop)
下面是我实现的代码的简要说明。 for 循环的复杂度应该是 O(n)。我只是无法弄清楚内部 while 循环的时间复杂度。 int x,n; // Inputted by the user.
loops - "Infinite loop"导致无法访问的代码
我目前正在尝试使用 html 分词器 https://godoc.org/golang.org/x/net/html . 所以我想做的是:从 url 获取所有链接，如果 url 包含特定字符串 ->
shell 脚本 : for-loop within while loop
我有 32 个文件(以相同的模式命名，唯一的区别是下面写的 $sample 编号)我想分成 4 个文件夹。我正在尝试使用以下脚本来完成这项工作，但该脚本无法正常工作，有人可以帮我使用以下 shell
loops - 动态 WHERE 子句 IN LOOP AT 语句
我必须根据 where 条件在我的内部表上做一个循环，但根据我的程序模式，必须在运行时修改 where 条件的字段。我知道在 SELECT 语句中这是可能的，但是当我在循环中执行此操作时出现错误。
KDB/Q : how to loop without loops?
我正在学习关于kdb数据库的q。我担心q中没有循环。我需要写一个算法，用像C这样的冗长程序在几个嵌套的for循环中编写。但是在q中，我被无法循环的事实所困扰。仅举一个具体的例子(很多)，我有一个简
haskell - 循环 StateT : Why this loop doesn't loop
我不明白为什么这段代码只循环一次然后退出？在 Ghci 中，我只能回答第一个循环，然后似乎变量 cont 设置为 false 并且我没有提示回答。结果是: *Main> testLoop1 td1
for-loop - 在 Racket "for loop"中做两件事
我正在 Racket 中运行 for 循环，对于列表中的每个对象，我想执行两件事:如果该项目满足条件，(1) 将其附加到我的新列表中，(2) 然后打印列表。但我不知道如何在 Racket 中执行此操作
for-loop - Matlab并行工具箱: stacking loops in parfor
我正在尝试使用 matlab 并行包中的 parfor 循环。我和这个人有类似的问题:MATLAB parfor slicing issue? 。输出矩阵似乎没有被识别为切片变量。在我的具体情况下，我

首页

博学

6Ren·AI

商城

loops - 如何增加寄存器中的每个字节？ (64位，Linux，NASM)