assembly - 优化第 7 代英特尔酷睿视频 RAM 中递增的 ASCII 十进制计数器-6ren

assembly - 优化第 7 代英特尔酷睿视频 RAM 中递增的 ASCII 十进制计数器

转载作者：行者123 更新时间：2023-12-03 14:07:34

25

4

我正在尝试针对特定的 Kaby Lake CPU (i5-7300HQ) 优化以下子例程，理想情况下，与原始形式相比，代码至少要快 10 倍。该代码在 16 位实模式下作为软盘式引导加载程序运行。它在屏幕上显示一个十进制的十进制计数器，从 0 - 9999999999 计数然后停止。

我查看了 Microarchitecture 的 Agner 优化指南和 Assembly , Instruction Performance Table和英特尔的 Optimization Reference Manual .

到目前为止我能做的唯一明智的优化是交换 loop dec + jnz 的说明, 解释 here .

另一种可能的优化可能是交换 lodsb为 mov + dec ，但我发现的有关这方面的信息是相互矛盾的，有些人说它有一点帮助，而另一些人则认为它实际上可能会损害现代 CPU 的性能。

我还尝试切换到 32 位模式并将整个计数器保留在一个未使用的寄存器对中以消除任何内存访问，但在读入一点后我意识到这十位将立即被缓存，并且 L1 缓存之间的延迟差异和寄存器只有大约三倍，所以绝对不值得以这种格式使用计数器的额外开销。

(编者注:add reg 延迟为 1 个周期，add [mem] 延迟约为 6 个周期，包括 5 个周期存储转发延迟。如果 [mem] 像视频 RAM 一样不可缓存，则更糟。)

org 7c00h

pos equ 2*(2*80-2)  ;address on screen

;init
cli
mov ax,3
int 10h
mov ax,0b800h
mov es,ax
jmp 0:start

start:
    push cs
    pop ds
    std

    mov ah, 4Eh
    xor cx, cx
    mov bl,'9'

countloop:
    mov cl,10           ;number of digits to add to
    mov si,counter+9    ;start of counter
    mov di,pos          ;screen position

    stc                 ;set carry for first adc
next_digit:
    lodsb               ;load digit
    adc al,0
    cmp bl, al
    jnc print
    add al,-10          ;propagate carry if resulting digit > 9
print:
    mov [si+1],al       ;save new digit
    stosw               ;print

    ;replaced loop with a faster equivalent
    ;loop next_digit
    dec cl
    jnz next_digit

    jnc countloop

    jmp $

counter:
    times 10 db '0'

    times 510-($-$$) db 0
    dw 0aa55h

我的问题是 - 我该怎么做才能实现所需的速度提升？我还可以学习哪些其他 Material 来更好地理解基本概念？

注意:这个是学校作业。虽然直接回答肯定会有所帮助，但我更希望得到相关研究 Material 的解释或指示，因为我们没有得到任何答复。

编辑:将代码更改为最小的可重现示例

最佳答案

这是我的看法。已应用以下优化:

最低有效数字已完全展开以获得最佳性能

剩余的数字已展开为每个数字一个部分

BCD 算法已被用于将代码减少到每个数字一个条件分支

段使用已被改组以减少使用的前缀数量

指令顺序已优化，可将长延迟指令移出关键路径

此外，我已将代码更改为 COM 二进制文件，以便于测试。将其重新转换为引导加载程序留给读者作为练习。一旦它成为引导加载程序，您可以做的一件事是修复代码，使 CS 和 SS 具有 0000 的段基。这避免了对某些微架构上的加载和存储的惩罚。

        org     100h

pos     equ     2*(2*80-12)             ; address on screen

        mov     ax, 3                   ; set up video mode
        int     10h
        mov     ax, 0b800h
        mov     ds, ax
        mov     es, ax

        mov     di, pos
        mov     ax, 4e30h               ; '0' + attribute byte 4e
        mov     cx, 10
        cld
        rep     stosw                   ; set up initial display

        xor     ax, ax
        sub     sp, 10
        push    ax
        push    ax
        push    ax
        push    ax
        push    ax
        mov     bp, sp                  ; set up counter

        dec     di
        dec     di                      ; di points to the last digit on screen
        mov     bx, digits              ; translation table

        jmp     countloop

%macro  docarry 1                       ; digits other than the last one
        mov     al, [bp+%1]             ; second to last digit
        inc     ax                      ; add carry to al
        aaa                             ; generate BCD carry
        mov     [bp+%1], al             ; desposit to counter
        cs xlat                         ; generate ASCII digit
        mov     [di-2*9+2*%1], al       ; display digit
        jnc     countloop               ; exit when carry dies
%endm

docarry2:                               ; place this here so jumps are in range
        docarry 2
        docarry 1
        docarry 0
        int     20h

        align   16                      ; for performance
countloop:
        mov     [di], byte '0'          ; treat last digit separately
        mov     [di], byte '1'
        mov     [di], byte '2'
        mov     [di], byte '3'
        mov     [di], byte '4'
        mov     [di], byte '5'
        mov     [di], byte '6'
        mov     [di], byte '7'
        mov     [di], byte '8'
        mov     [di], byte '9'

        docarry 8
        docarry 7
        docarry 6
        docarry 5
        docarry 4
        docarry 3
        jmp     docarry2

digits:
        db      '0123456789'

与我基于 8 MHz 80286 的机器上的原始代码相比，这将速度提高了大约 30 倍，并且设法使计数器每秒增加大约 329000 次(大约每位数 3.04 µs)。在现代系统上进行测试会有点困难，但我会尝试找到解决方案。

关于assembly - 优化第 7 代英特尔酷睿视频 RAM 中递增的 ASCII 十进制计数器，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/61460126/

25

4

0

文章推荐： perl - 为 Raku 构建多个后端失败

文章推荐： SwiftUI 列表未显示任何项目

assembly - "Assembly"与 "Assembler"
我被告知“汇编”是您在文件中编写的内容，让您的“汇编程序”将其转换为二进制代码。但我看到这两个术语在各种作品中混合搭配。我什至听说你编写了“汇编器”，然后“汇编器”使其可执行。正确的用词是什么？
assembly - 如何正确结束 assembly ？
我在正确终止用 Assembly 编写的 16 位 DOS 程序时遇到问题。这是部分代码: .386P .model flat stack_s segment stack 'stack'
assembly - assembly 流水线
我需要多少档才能正确执行以下指令。我对我所做的事情有些困惑，所以我在这里看到专家的答案。 lw $1,0($2); beq $1,$2,Label; 请注意，检查是否会发生分支将在解码阶段完成。但是在
assembly - assembly 中的MUL功能
我正在尝试在汇编中进行简单的乘法运算，但是由于某些原因，当标记了MUL函数时，我看不到寄存器会发生变化。 mov bx, 5 mov cx, 10 mul cx 最佳答案这些称为指令，它们指定
assembly - assembly 中的递归斐波那契
我正在尝试在 Assembly 中实现递归斐波那契程序。但是，我的程序崩溃了，出现了未处理的异常，我似乎无法找出问题所在。我不怀疑这涉及我对堆栈的不当使用，但我似乎无法指出哪里...... .386
assembly - assembly 中出现奇怪的字符？
我编写了以下代码: .386 .model small .stack 100h .data text db "Paper",0 .code start : lea dx ,
assembly - assembly 中的搬迁
我有一个用汇编语言编写的裸机 ARM 的启动代码，我正在尝试了解它是如何工作的。该二进制文件被写入一些外部闪存中，并在启动时将其自身的一部分复制到 RAM 中。尽管我读过这篇文章wikipedia e
assembly - assembly 中的二维数组
我在数据部分定义了一个二维数组和两个一维数组(一个用于列总和，一个用于行总和)，并且我编写了一个函数，将二维数组求和到一维数组中。我使用 eax 和 ebx 作为二维数组的索引，但是当 eax 或 e
assembly - assembly 中的双重条件检查
我正在开始组装，我正在使用 nasm 来组装代码，我正在尝试处理驻留在内存中的字符串并更改它，我想检查一个字节是否在某个范围内(ascii)，这样我就可以决定如何处理它，我似乎不知道如何检查一个值是否
assembly - assembly 分离过多的迹象是什么？
虽然您通常不希望将一个整体程序集用于小型项目以外的任何事情，但可能会将事物分离得太多。组装分离过多的迹象/气味是什么？最佳答案第一个(明显的)是:在一个有很多项目的解决方案中，其中只有少数(比如
assembly - assembly 中的斐波那契实现给出了意想不到的结果
我正在尝试编写斐波那契的汇编代码版本，它给出第 n 个斐波那契数并返回它。出于某种原因，它在存储斐波那契数的返回值和添加它们时遇到问题。我希望它打印第 n 个斐波那契数。我对我的代码做了一些修改
c# - Assembly.LoadFile、Assembly.LoadFrom 和 Assembly.Load 的替代方案？
我有一个最小的、可重现的示例有两个问题，该示例具有三个针对 .NET Core 3.1 的项目。但我也想以 .NET Standard 2.0 为目标。该示例适用于需要在运行时加载程序集并使用提供的
assembly - : operator do in assembly? 是什么
: 运算符在汇编中做什么？代码如下:DS:DX我还没有找到该运算符(operator)的任何文档。(我正在使用 NASM) 最佳答案那实际上只是一个寄存器分隔符，而不是运算符。这意味着使用 DX 寄
assembly - GMP- assembly 代码？
我在哪里可以找到为 gmp-5.0.0 编写的程序的汇编代码我正在使用 UBUNTU 和 G++ 编译器..编译代码的命令是“g++ test.cc -o outp -lgmp” 实际上我想知道在 1
assembly - 如何计算 assembly 中的负数
我是组装新手，我有一个关于如何表示负数的问题我有三个 DWORDS 变量，比如说: result DWORD 0 i DWORD 3 j DWORD 5 我想计算这个公式:result = i -
assembly - 基本 assembly 程序
我想编写我的第一个汇编程序。我在论文上做了一些程序，但这是我第一次使用编译器。我正在使用 ideone .我的程序很简单，翻译 A = 5 - A到 assembly NEG A ADD A, 5
assembly - 打印存储在字节中的值的宏。 assembly 体
程序集，masm 嘿，我写了宏来打印存储在 dane1 段中的 1 字节值。我将值除以 16，然后将提醒推送到堆栈，直到值==0。然后我弹出提醒将它们转换为 ASCII 码，并打印它们。有人可以看
assembly - assembly NASM 中的随机数生成
我正在研究 nasm 的一个大学项目。唯一的问题是我无法生成 162 和 278 之间的偶数随机数。我尝试了很多算法，但似乎无法限制范围内的数字。是否有一个小技巧或调整来获得所需的范围内的数字？目的
assembly - assembly x86 中的斐波那契数列
终于在无数次错误的漫长 session 之后，希望这是最后一个。没有编译或运行时错误，只是一个逻辑错误。编辑:(固定伪代码) 我的伪代码: first = 1; second = 1; thir
assembly - Arm Assembly-带有4个以上参数的调用函数
我知道在程序集r0中调用函数时，包含第一个参数，直到r3是第四个。我知道，当它超过四个时，将使用堆栈指针，但是我不太确定具体细节。 r0-r3仍然保持前四个，其余的进入堆栈吗？我正在看下面的程序集，试

首页

博学

6Ren·AI

商城

assembly - 优化第 7 代英特尔酷睿视频 RAM 中递增的 ASCII 十进制计数器