- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我最近开始学习汇编,并且为自己建立了一个小项目。目标是使用循环。我想将0x414141移至RAX,然后在RAX上循环,并递增每个字节,以便RAX在代码末尾包含0x424242。
我曾尝试增加字节rax,但是在尝试编译时总是会从NASM收到错误消息。当前,我有最后的工作代码,它将使RAX递增等于0x414144。我似乎找不到任何看起来/听起来与我想做的接近的东西。 (但是有多难,对吧?)
global _start
section .text
_start:
mov rax, 0x414141
mov rcx, 3
strLoop:
inc rax
loop strLoop
mov rax, 60
mov rdi, 0
syscall
; ^ exit
最佳答案
像通常的asm一样,有很多好的方法来实现您想要的。最重要的问题是字节之间的进位传播是否可能是一个问题。
选项1(带进位传播的简单加法)
如果只关心64位RAX的低4字节,则可能只应将EAX用于32位操作数大小。 (写32位寄存器零扩展到完整的64位寄存器中,这不同于您写入8位或16位寄存器时的情况。)
因此,正如评论中提到的,这是对您的问题的一种解释的窍门。
add eax, 0x010101
mov
支持64位立即数,而不支持
add
。您可以在另一个寄存器中创建一个常量:
mov rdx, 0x0101010101010101
add rax, rdx
add
的方法的缺点是
某个字节中的溢出会传播到下一个较高的。因此,这并不是真正的4或8个独立字节的加法运算,除非您知道每个单独的字节都不会溢出并进入下一个字节。 (即
SWAR)
eax = 0x010101FF
并从上面添加常数,则不会得到
0x02020200
,而是
0x02020300
(最低有效字节溢出到第二最低有效字节中)。
[global func]
func:
mov rax, 0x4141414141414141
mov rcx, 8
.func_loop: ; NASM local .label is good style within a function
inc al ; modify low byte of RAX without affecting others
rol rax, 8
dec rcx
jne .func_loop
; RAX has been rotated 8 times, back to its original layout
ret
rax
的最低有效字节(不影响rax
的其他位),然后将rax
向左旋转8位,然后重复。inc ah ; doing AH first happens to be better with Skylake's partial-register handling: inc al can run in parallel with this once AH is already renamed separately.
inc al
rol rax, 16
inc al
; inc ah
顺序较慢的情况下可以达到收支平衡,因为inc ah
直到inc al
之后才能启动,因为modern Intel CPUs don't rename the low-8 partial registers与完整reg分开,只有高8。loop
指令在Intel CPU上为slow,在功能上与此等效(但不修改标志):dec rcx
jne func_loop
add al, 1
实际上可能比执行inc al
稍快一些,如here所述。rol
以外的其他1
只需要修改CF,而inc
/ dec
只需修改其他标记(SPAZO)。因此,如果使用部分标记重命名inc
/ rol
/ dec
不会使inc / rol耦合依赖关系链进入dec循环计数器依赖关系链,并使其变得比需要的慢(在Skylake上进行了测试,实际上对于较大的循环计数,它确实以2个周期/迭代吞吐量运行)。但是dec
会是一个问题Silvermont,其中inc
/ dec
确实合并为FLAGS。将其中之一设为sub
或add
会破坏通过FLAGS的依赖链。)default rel ; use RIP-relative addressing by default
section .rodata
align 16 ; without AVX, 16-byte memory operands must be aligned
vec1: times 8 db 0x01
dq 0
section .text
[global func]
func:
mov rax, 0x4141414141414141
movq xmm0, rax
paddb xmm0, [vec1] ; packed-integer add of byte elements
movq rax, xmm0
ret
rax
的值移到xmm0
的下半部分,对预定义的常数(按字节顺序添加128位长,但高64位与我们无关,因此为零)进行字节加法,然后将结果写回再次输入rax
。rax = 0x01010101010101FF
产生0x0202020202020200
(最低有效字节溢出)。mov
-immediate)也可以使用内存中的常量。EMMS
; x86-64 System V ABI指定FPU在 call /重拨时应处于x87模式。pcmpeqd xmm1, xmm1
生成一个全 vector 是有效的。但是如何使用它来添加1
呢? SIMD右移仅适用于word(16位)或更大的元素,因此需要几个指令将其转换为0x0101...
的 vector 。 Or SSSE3 pabsb
。1
与减去-1
相同,而全1是二进制补码-1
。 movq xmm0, rax
pcmpeqd xmm1, xmm1 ; set1( -1 )
psubb xmm0, xmm1 ; packed-integer sub of (-1) byte elements
movq rax, xmm0
paddsb
或psubsb
表示带符号的饱和度, paddusb
或psubusb
表示无符号的饱和度。 (对于无符号饱和度,您不能使用减-1
技巧;它总是会饱和为0,而不是回绕到原始值之上的1。)
关于loops - 如何增加寄存器中的每个字节? (64位,Linux,NASM),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57648305/
我认为这样的表达式会导致 Haskell 永远评估。但是 GHCi 和编译程序中的行为让我感到惊讶。 例如,在 GHCi 中,这些表达式一直阻塞到 I Control+C ,但不消耗 CPU。看起来像
就目前情况而言,这个问题不太适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持,但这个问题可能会引发辩论、争论、民意调查或扩展讨论。如果您觉得这个问题可以改进并可能重新开放,visit
如果可以的话,我想减少这段代码: class Alarm { internal static void isGreaterThanOrBelowValue(int min, int max,
我有以下问题: 我想创建一个批处理文件,循环访问一定数量的 IP 地址,以停止远程 PC 上的某个服务。 因为停止过程需要一些时间,所以我需要第二个循环来查询服务的状态并等待,直到服务达到“已停止”状
我已经完整地编写了“The Rust Programming Language”在线书籍中的程序,chapter 2 .我还进一步开发了它:通过添加一个简单的问题/响应,用户可以通过输入“y”再次玩游
这个人已经困扰了我一阵子了, 我们应该如何在集合中存储值或在for循环中映射? (let [s #{}] (for [ i (range 10) j (range 1
mov ecx, 16 looptop: . . . loop looptop 这个循环会执行多少次? 如果 ecx
我似乎无法找到一种在 Xtend 中表达以下内容而不诉诸 while 循环的好方法: for(int i = 0; i range(int stop) { range(0, stop) }
好吧,长话短说,我正在学习汇编,我正在尝试循环打印出 ascii 字符“0”-“9”。因此,我完成了我在示例中看到的所有基础知识,例如使用 pushad 和 popad 保存寄存器状态,分配堆栈空间,
我正在尝试为自己编写一个扑克计算器,我有一个 5 级深的 for 循环。 为此,我将 for 循环一个接一个地嵌套。我正在寻找一种方法来简单地使用一个循环(或函数),它可以告诉我想去多少层。对于这个例
我有一本包含约 150,000 个键的字典。没有重复的键。每个 key 的长度为 127 个字符,每个 key 在 1-11 个位置上有所不同(大多数差异发生在 key 的末尾)。每个键的值是一个唯一
我正在尝试编写一个 Lisp 程序来实现与点和方 block 非常相似的棋盘游戏,这意味着我有两个玩家相互竞争但可以连续移动。我正在尝试实现最简单的 minimax 算法来实现这一点,没有 alpha
下面是我实现的代码的简要说明。 for 循环的复杂度应该是 O(n)。我只是无法弄清楚内部 while 循环的时间复杂度。 int x,n; // Inputted by the user.
我目前正在尝试使用 html 分词器 https://godoc.org/golang.org/x/net/html . 所以我想做的是:从 url 获取所有链接,如果 url 包含特定字符串 ->
我有 32 个文件(以相同的模式命名,唯一的区别是下面写的 $sample 编号)我想分成 4 个文件夹。我正在尝试使用以下脚本来完成这项工作,但该脚本无法正常工作,有人可以帮我使用以下 shell
我必须根据 where 条件在我的内部表上做一个循环,但根据我的程序模式,必须在运行时修改 where 条件的字段。 我知道在 SELECT 语句中这是可能的,但是当我在循环中执行此操作时出现错误。
我正在学习关于kdb数据库的q。我担心q中没有循环。 我需要写一个算法,用像C这样的冗长程序在几个嵌套的for循环中编写。但是在q中,我被无法循环的事实所困扰。 仅举一个具体的例子(很多),我有一个简
我不明白为什么这段代码只循环一次然后退出? 在 Ghci 中,我只能回答第一个循环,然后似乎变量 cont 设置为 false 并且我没有提示回答。 结果是: *Main> testLoop1 td1
我正在 Racket 中运行 for 循环,对于列表中的每个对象,我想执行两件事:如果该项目满足条件,(1) 将其附加到我的新列表中,(2) 然后打印列表。但我不知道如何在 Racket 中执行此操作
我正在尝试使用 matlab 并行包中的 parfor 循环。我和这个人有类似的问题:MATLAB parfor slicing issue? 。输出矩阵似乎没有被识别为切片变量。在我的具体情况下,我
我是一名优秀的程序员,十分优秀!