- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我无法使用找到的文档阅读 AMD Southern Island GPU 的汇编语言 here .
这是一个示例 OpenCL 代码:
1 __attribute__((reqd_work_group_size(256, 1, 1)))
2 void kernel foo(global uchar* data) {
3 const uint block_size = get_local_size(0);
4 const uint lid = get_local_id(0);
5
6 data[lid] = max(data[lid], data[lid + block_size]);
7 }
以及由 AMD 编译器生成的(dis)程序集:
1 shader main
2 asic(SI_ASIC)
3 type(CS)
4
5 s_buffer_load_dword s0, s[8:11], 0x00 // what is the purpose of s[8:11] ?
6 s_waitcnt lgkmcnt(0)
7 v_add_i32 v1, vcc, s0, v0 // I guess v0 initially contains the local IDs ?
8 v_add_i32 v0, vcc, s0, v0 // wouldn't a v_mov v0, v1 performs better ?
9 buffer_load_ubyte v2, v1, s[4:7], 0 offen // s[4:7] ?
10 buffer_load_ubyte v0, v0, s[4:7], 0 offen offset:256
11 s_waitcnt vmcnt(0)
12 v_max_u32 v0, v2, v0
13 buffer_store_byte v0, v1, s[4:7], 0 offen glc
14 s_endpgm
15 end
谢谢!
Ps:部分加分题在汇编代码注释中
最佳答案
我迟到了大约一年,但也许这会对其他人有所帮助。
了解 AMD GCN 归结为:
Address = BASE + offset + lane
在内核启动时预加载以下寄存器
简而言之,我们将 (1) 获取地址 *data (2) 获取 *data 处的值 (3) 获取 offset:256 处的值 (4) 将两个数字相加 (5) 存储结果对*数据不利。
shader main
asic(SI_ASIC)
type(CS)
s_buffer_load_dword s0, s[8:11], 0x00 // s[8:11] is the pointer to the params
s_waitcnt lgkmcnt(0) // wait for s0 to be filled
v_add_i32 v1, vcc, s0, v0 // s0=offset v0=lane We just need the base now.
v_add_i32 v0, vcc, s0, v0 // wouldn't a v_mov v0, v1 performs better
buffer_load_ubyte v2, v1, s[4:7], 0 offen //Get value at Base(s[4:7]) + v1(offset & lane)
buffer_load_ubyte v0, v0, s[4:7], 0 offen offset:256 // like above but address+256
s_waitcnt vmcnt(0) //wait for the memory transfer to complete
v_max_u32 v0, v2, v0 // do the MAX operation
buffer_store_byte v0, v1, s[4:7], 0 offen glc //save v0 using the base+v1(offset+lane)
s_endpgm //stop kernel
end
在第 10 行使用“v_mov v0, v1”而不是“v_add_i32 v0, vcc, s0, v0”不会让它运行得更快,因为 v_mov 和 v_add 都花费相同的时间。但是,如果这是在 CPU 上,v_mov 会变慢,因为它依赖于先前的指令,并且不能同时执行多个指令。一个 gpu 不能在一个内核上同时执行多条指令,所以两种方式的速度是一样的。
我不明白的是,我怎么可能只用 ISA 手册(请参阅第 12.6 节“向量内存缓冲区指令”)最终编写出一个 buffer_load_ubyte 指令?很难理解。您几乎需要通过示例来学习。
我应该如何读取微码信息?(例如:v_add_i32 指令的第 161 页)很难做到这一点。你几乎需要做一些试错。该手册实际上有几个地方不正确,我在论坛上向 AMD 报告了它。我构建了一个编译器 (asm4gcn),我不得不为此苦苦挣扎。我也引用了别人的项目。
是否有描述处理器架构的标准方法?我想它们在某些方面都是不同的。但大多数都有缓存部分、浮点单元、控制流单元和寄存器。
关于assembly - 麻烦阅读和美国代码,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16519269/
我正在尝试读取一个大型日志文件,该文件已使用不同的分隔符(遗留更改)进行了解析。 此代码有效 import os, subprocess, time, re import pandas as pd f
我试图理解在 Linux 下以 Turbo 模式(特别是 fpc -Mtp -vw)编译的 Free Pascal 中看到的有点神奇的行为。代码来自 Jack Crenshaw 的“让我们构建一个编译
我有一个具有以下结构的 txt 文件: NAME DATA1 DATA2 a 10 1,2,3 b 6 8,9 c 2
我试图理解在 Linux 下以 Turbo 模式(特别是 fpc -Mtp -vw)编译的 Free Pascal 中看到的有点神奇的行为。代码来自 Jack Crenshaw 的“让我们构建一个编译
public class Bug1 { private String s; public void Bug1(){ s = "hello"; } public Stri
我们有这样一种情况,我们的应用程序需要处理一系列文件,而不是同步执行此功能,我们希望采用多线程将工作负载分配给不同的线程。 每一项工作是: 1.以只读方式打开文件 2.处理文件中的数据 3.将处理后的
我正在尝试读取 .php 文件并替换十六进制字符。php文件格式如下: 问题是它弄乱了转义字符 (\") 到目前为止我的代码: while(i=48 && str[i+2]=97 && str[i+
我正在用 C# 开发一个程序,我需要一些帮助。我正在尝试创建一个数组或项目列表,显示在某个网站上。我想要做的是阅读 anchor 文本,它是 href。例如,这是 HTML:
我有一个偏好设置,它控制我的应用程序是否在用户单击按钮时播放声音(这种情况经常发生,想想计算器)。每次用户单击按钮时,都会调用以下方法: private void playButtonClickSou
我正在尝试在我的标签末尾创建一个阅读更多按钮。我希望它默认显示 3 行。我正在用 swift 而不是 objective c 编写代码。只有当用户点击标签的阅读更多部分时,标签才会展开。它的外观和工作
当您获得第三方库(c、c++)、开源(LGPL 说)但没有很好的文档时,了解它以便能够集成到您的应用程序中的最佳方法是什么? 该库通常有一些示例程序,我最终使用 gdb 浏览了代码。还有其他建议/最佳
同时从 2 个或更多不同线程对同一个文件描述符使用 pread 是否有问题? 最佳答案 pread 本身是线程安全的,因为它不在 list of unsafe functions 上.所以调用它是安全
当您使用命令 pd.read_csv 读取 csv 时,如何跳过连续包含特定值的行?如果在第 50、55 行,第一列的值为 100,那么我想在读取 csv 文件时跳过这些行。我如何将这些命令放入像 p
我迫切需要在 C# 中使用 T4 生成 HTML 输出。 我正在使用 Runtime-T4-Files 并选择“TextTemplatingFilePreprocessor”而不是“TextTempl
今年夏天我在实习期间一直在学习 ERP 应用程序。由于我是一名即将毕业的程序员,我希望有一个可靠的软件分支可以帮助我完成工作,直到我确定下一步该做什么(直到我对大局有一个很好的了解)。到现在为止,我刚
将包含列(例如“a”、“b”)的数据帧保存为 parquet,然后在稍后的时间点读取 parquet 不会提供相同的列顺序(可能是“b”、“a”fe)文件保存为。 不幸的是,我无法弄清楚订单是如何受到
我正在开发一个使用谷歌表格作为数据库的应用程序,但我不知道如何让 Swift 从谷歌表格中读取。我浏览了 API 网站和一些问题,但刚开始我需要一些帮助。到目前为止,我有; 私有(private)让范
我打算阅读swing concept,如果值得一读,请推荐一些学习 Material 最佳答案 自 AWT 崩溃以来,Java 的 GUI 工具包太多了。即使是 Swing 也被评论家严重低估,但他们
我已经使用 J 几个月了,我发现阅读不熟悉的代码(例如,不是我自己写的)是该语言最具挑战性的方面之一,尤其是在默认情况下。过了一会儿,我想出了这个策略: 1)将代码段复制到word文档中 2)从(1)
很难说出这里问的是什么。这个问题是含糊的、模糊的、不完整的、过于宽泛的或修辞性的,无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开它,visit the help center 。 已关
我是一名优秀的程序员,十分优秀!