assembly - 麻烦阅读和美国代码-6ren

assembly - 麻烦阅读和美国代码

转载作者：行者123 更新时间：2023-12-02 22:03:20

26

4

我无法使用找到的文档阅读 AMD Southern Island GPU 的汇编语言 here .

这是一个示例 OpenCL 代码:

 1    __attribute__((reqd_work_group_size(256, 1, 1)))
 2    void kernel foo(global uchar* data) {
 3        const uint block_size = get_local_size(0);
 4        const uint lid = get_local_id(0);
 5        
 6        data[lid] = max(data[lid], data[lid + block_size]);
 7    }

以及由 AMD 编译器生成的(dis)程序集:

 1    shader main
 2      asic(SI_ASIC)
 3      type(CS)
 4    
 5      s_buffer_load_dword  s0, s[8:11], 0x00                 // what is the purpose of s[8:11] ?
 6      s_waitcnt     lgkmcnt(0)
 7      v_add_i32     v1, vcc, s0, v0                          // I guess v0 initially contains the local IDs ?
 8      v_add_i32     v0, vcc, s0, v0                          // wouldn't a v_mov v0, v1 performs better ?
 9      buffer_load_ubyte  v2, v1, s[4:7], 0 offen             // s[4:7] ?
10      buffer_load_ubyte  v0, v0, s[4:7], 0 offen offset:256
11      s_waitcnt     vmcnt(0)
12      v_max_u32     v0, v2, v0
13      buffer_store_byte  v0, v1, s[4:7], 0 offen glc
14      s_endpgm
15    end

我不明白的是，我怎么可能只用 ISA 手册(参见第 12.6 节向量内存缓冲区指令)就写出了例如 *buffer_load_ubyte* 指令？
我应该如何读取微码信息？ (例如:*v_add_i32* 指令的第 161 页)
是否有描述处理器架构的标准方法？

谢谢!

Ps:部分加分题在汇编代码注释中

最佳答案

我迟到了大约一年，但也许这会对其他人有所帮助。

了解 AMD GCN 归结为:

Address = BASE + offset + lane

在内核启动时预加载以下寄存器

s[4:7]为基地址
s[8:11]是指向参数的指针
偏移量 v0 预加载了车道号 (0-63)

简而言之，我们将 (1) 获取地址 *data (2) 获取 *data 处的值 (3) 获取 offset:256 处的值 (4) 将两个数字相加 (5) 存储结果对*数据不利。

shader main
  asic(SI_ASIC)
  type(CS)

  s_buffer_load_dword  s0, s[8:11], 0x00  // s[8:11] is the pointer to the params
  s_waitcnt     lgkmcnt(0)           // wait for s0 to be filled
  v_add_i32     v1, vcc, s0, v0      // s0=offset v0=lane We just need the base now.
  v_add_i32     v0, vcc, s0, v0      // wouldn't a v_mov v0, v1 performs better
  buffer_load_ubyte v2, v1, s[4:7], 0 offen //Get value at Base(s[4:7]) + v1(offset & lane) 
  buffer_load_ubyte v0, v0, s[4:7], 0 offen offset:256 // like above but address+256
  s_waitcnt     vmcnt(0)                        //wait for the memory transfer to complete
  v_max_u32     v0, v2, v0                      // do the MAX operation
  buffer_store_byte v0, v1, s[4:7], 0 offen glc //save v0 using the base+v1(offset+lane)
  s_endpgm                                      //stop kernel
end

在第 10 行使用“v_mov v0, v1”而不是“v_add_i32 v0, vcc, s0, v0”不会让它运行得更快，因为 v_mov 和 v_add 都花费相同的时间。但是，如果这是在 CPU 上，v_mov 会变慢，因为它依赖于先前的指令，并且不能同时执行多个指令。一个 gpu 不能在一个内核上同时执行多条指令，所以两种方式的速度是一样的。

我不明白的是，我怎么可能只用 ISA 手册(请参阅第 12.6 节“向量内存缓冲区指令”)最终编写出一个 buffer_load_ubyte 指令？很难理解。您几乎需要通过示例来学习。

我应该如何读取微码信息？(例如:v_add_i32 指令的第 161 页)很难做到这一点。你几乎需要做一些试错。该手册实际上有几个地方不正确，我在论坛上向 AMD 报告了它。我构建了一个编译器 (asm4gcn)，我不得不为此苦苦挣扎。我也引用了别人的项目。

是否有描述处理器架构的标准方法？我想它们在某些方面都是不同的。但大多数都有缓存部分、浮点单元、控制流单元和寄存器。

关于assembly - 麻烦阅读和美国代码，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/16519269/

26

4

0

文章推荐： listview - 从 QML ListView 获取焦点/activeFocus 状态

文章推荐：某些带有 trim() 的字符串的 PHP 解密失败

文章推荐： python-3.x - tkinter askyesno 消息框行为

文章推荐： haskell - 优化 FRP 系统

assembly - "Assembly"与 "Assembler"
我被告知“汇编”是您在文件中编写的内容，让您的“汇编程序”将其转换为二进制代码。但我看到这两个术语在各种作品中混合搭配。我什至听说你编写了“汇编器”，然后“汇编器”使其可执行。正确的用词是什么？
assembly - 如何正确结束 assembly ？
我在正确终止用 Assembly 编写的 16 位 DOS 程序时遇到问题。这是部分代码: .386P .model flat stack_s segment stack 'stack'
assembly - assembly 流水线
我需要多少档才能正确执行以下指令。我对我所做的事情有些困惑，所以我在这里看到专家的答案。 lw $1,0($2); beq $1,$2,Label; 请注意，检查是否会发生分支将在解码阶段完成。但是在
assembly - assembly 中的MUL功能
我正在尝试在汇编中进行简单的乘法运算，但是由于某些原因，当标记了MUL函数时，我看不到寄存器会发生变化。 mov bx, 5 mov cx, 10 mul cx 最佳答案这些称为指令，它们指定
assembly - assembly 中的递归斐波那契
我正在尝试在 Assembly 中实现递归斐波那契程序。但是，我的程序崩溃了，出现了未处理的异常，我似乎无法找出问题所在。我不怀疑这涉及我对堆栈的不当使用，但我似乎无法指出哪里...... .386
assembly - assembly 中出现奇怪的字符？
我编写了以下代码: .386 .model small .stack 100h .data text db "Paper",0 .code start : lea dx ,
assembly - assembly 中的搬迁
我有一个用汇编语言编写的裸机 ARM 的启动代码，我正在尝试了解它是如何工作的。该二进制文件被写入一些外部闪存中，并在启动时将其自身的一部分复制到 RAM 中。尽管我读过这篇文章wikipedia e
assembly - assembly 中的二维数组
我在数据部分定义了一个二维数组和两个一维数组(一个用于列总和，一个用于行总和)，并且我编写了一个函数，将二维数组求和到一维数组中。我使用 eax 和 ebx 作为二维数组的索引，但是当 eax 或 e
assembly - assembly 中的双重条件检查
我正在开始组装，我正在使用 nasm 来组装代码，我正在尝试处理驻留在内存中的字符串并更改它，我想检查一个字节是否在某个范围内(ascii)，这样我就可以决定如何处理它，我似乎不知道如何检查一个值是否
assembly - assembly 分离过多的迹象是什么？
虽然您通常不希望将一个整体程序集用于小型项目以外的任何事情，但可能会将事物分离得太多。组装分离过多的迹象/气味是什么？最佳答案第一个(明显的)是:在一个有很多项目的解决方案中，其中只有少数(比如
assembly - assembly 中的斐波那契实现给出了意想不到的结果
我正在尝试编写斐波那契的汇编代码版本，它给出第 n 个斐波那契数并返回它。出于某种原因，它在存储斐波那契数的返回值和添加它们时遇到问题。我希望它打印第 n 个斐波那契数。我对我的代码做了一些修改
c# - Assembly.LoadFile、Assembly.LoadFrom 和 Assembly.Load 的替代方案？
我有一个最小的、可重现的示例有两个问题，该示例具有三个针对 .NET Core 3.1 的项目。但我也想以 .NET Standard 2.0 为目标。该示例适用于需要在运行时加载程序集并使用提供的
assembly - : operator do in assembly? 是什么
: 运算符在汇编中做什么？代码如下:DS:DX我还没有找到该运算符(operator)的任何文档。(我正在使用 NASM) 最佳答案那实际上只是一个寄存器分隔符，而不是运算符。这意味着使用 DX 寄
assembly - GMP- assembly 代码？
我在哪里可以找到为 gmp-5.0.0 编写的程序的汇编代码我正在使用 UBUNTU 和 G++ 编译器..编译代码的命令是“g++ test.cc -o outp -lgmp” 实际上我想知道在 1
assembly - 如何计算 assembly 中的负数
我是组装新手，我有一个关于如何表示负数的问题我有三个 DWORDS 变量，比如说: result DWORD 0 i DWORD 3 j DWORD 5 我想计算这个公式:result = i -
assembly - 基本 assembly 程序
我想编写我的第一个汇编程序。我在论文上做了一些程序，但这是我第一次使用编译器。我正在使用 ideone .我的程序很简单，翻译 A = 5 - A到 assembly NEG A ADD A, 5
assembly - 打印存储在字节中的值的宏。 assembly 体
程序集，masm 嘿，我写了宏来打印存储在 dane1 段中的 1 字节值。我将值除以 16，然后将提醒推送到堆栈，直到值==0。然后我弹出提醒将它们转换为 ASCII 码，并打印它们。有人可以看
assembly - assembly NASM 中的随机数生成
我正在研究 nasm 的一个大学项目。唯一的问题是我无法生成 162 和 278 之间的偶数随机数。我尝试了很多算法，但似乎无法限制范围内的数字。是否有一个小技巧或调整来获得所需的范围内的数字？目的
assembly - assembly x86 中的斐波那契数列
终于在无数次错误的漫长 session 之后，希望这是最后一个。没有编译或运行时错误，只是一个逻辑错误。编辑:(固定伪代码) 我的伪代码: first = 1; second = 1; thir
assembly - Arm Assembly-带有4个以上参数的调用函数
我知道在程序集r0中调用函数时，包含第一个参数，直到r3是第四个。我知道，当它超过四个时，将使用堆栈指针，但是我不太确定具体细节。 r0-r3仍然保持前四个，其余的进入堆栈吗？我正在看下面的程序集，试

首页

博学

6Ren·AI

商城

assembly - 麻烦阅读和美国代码