- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
这是一个c源代码示例:
register int a asm("r8");
register int b asm("r9");
int main() {
int c;
a=2;
b=3;
c=a+b;
return c;
}
这是使用 arm gcc 交叉编译器生成的汇编代码:
$ arm-linux-gnueabi-gcc -c global_reg_var_test.c -Wa,-a,-ad
...
mov r8, #2
mov r9, #3
mov r2, r8
mov r3, r9
add r3, r2, r3
...
使用 -frename-registers 时,行为是相同的。 (更新。在我用 -O3 说过之前。)
所以问题是:为什么 gcc 添加第 3 和第 4 个 MOV 而不是“ADD R3、R8、R9”?
上下文:我需要在不重命名寄存器的模拟中序 cpu (gem5 arm minorcpu) 中优化代码。
最佳答案
我举了真实的例子(发表在评论中)和put it on the godbolt compiler explorer . calc()
的主要低效率是 src1
和 src2
是它必须从内存加载的全局变量,而不是寄存器中传递的参数。
我没有看main
,只看calc
。
register int sum asm ("r4");
register int r asm ("r5");
register int c asm ("r6");
register int k asm ("r7");
register int temp1 asm ("r8"); // really? you're using two global register vars for scratch temporaries? Just let the compiler do its job.
register int temp2 asm ("r9");
register long n asm ("r10");
int *src1, *src2, *dst;
void calc() {
temp1 = r*n;
temp2 = k*n;
temp1 = temp1+k;
temp2 = temp2+c;
// you get bad code for this because src1 and src2 are globals, not args passed in regs
sum = sum + src1[temp1] * src2[temp2];
}
# gcc 4.8.2 -O3 -Wall -Wextra -Wa,-a,-ad -fverbose-asm
mla r0, r10, r7, r6 @ temp2.9, n, k, c @@ tmp = k*n + c
movw r3, #:lower16:.LANCHOR0 @ tmp136,
mla r8, r10, r5, r7 @ temp1, n, r, k @@ temp1 = r*n + k
movt r3, #:upper16:.LANCHOR0 @ tmp136,
ldmia r3, {r1, r2} @ tmp136,, @@ load both pointers, since they're stored adjacently in memory
mov r9, r0 @ temp2, temp2.9 @@ This insn is wasted: the first MLA should have had this as the dest
ldr r3, [r1, r8, lsl #2] @ *_22, *_22
ldr r2, [r2, r9, lsl #2] @ *_28, *_28
mla r4, r2, r3, r4 @ sum, *_28, *_22, sum
bx lr @
出于某种原因,其中一个整数乘法累加 (mla
) 指令使用 r8
(temp1
) 作为目标,但是另一个写入 r0
(临时寄存器),然后才将结果移动到 r9
(temp2
)。
sum += src1[temp1] * src2[temp2]
是通过 mla
读取和写入 r4
(求和
).
为什么需要 temp1
和 temp2
是全局变量?这只会阻止优化器进行积极的优化,这些优化不会计算与 C 源代码完全相同的临时文件。幸运的是,C 内存模型足够弱,它应该能够重新排序分配给它们,尽管这实际上可能是它没有直接将 MLA 放入 temp2
的原因,因为它决定首先进行计算。 (嗯,内存模型是否适用?其他线程根本看不到我们的寄存器,所以这些全局变量都是有效的线程局部变量。它应该允许宽松的顺序分配给全局变量。信号处理程序可以看到这些全局变量,并且可以在任何时候运行。gcc 不遵循严格的源代码顺序,因为在源代码中,两个乘法都发生在任何一个加法之前。)
Godbolt 没有较新的 ARM gcc 版本,因此我无法轻松测试较新的 gcc。较新的 gcc 可能会在这方面做得更好。
顺便说一句,I tried a version of the function using local variables for temporaries, and didn't actually get better results .可能是因为仍然有太多寄存器全局变量,以至于 gcc 无法为临时变量选择方便的寄存器。
// same register globals, except for temp1 and temp2.
void calc_local_tmp() {
int t1 = r*n + k;
sum += src1[t1] * src2[k*n + c];
}
push {lr} @ gcc decides to push to get a tmp reg
movw r3, #:lower16:.LANCHOR0 @ tmp131,
mla lr, r10, r5, r7 @ tmp133, n.1, r, k.2
movt r3, #:upper16:.LANCHOR0 @ tmp131,
mla ip, r7, r10, r6 @ tmp137, k.2, n.1, c
ldr r2, [r3] @ src1, src1
ldr r0, [r3, #4] @ src2, src2
ldr r1, [r2, lr, lsl #2] @ *_10, *_10
ldr r3, [r0, ip, lsl #2] @ *_20, *_20
mla r4, r3, r1, r4 @ sum, *_20, *_10, sum
ldr pc, [sp], #4 @
使用 -fcall-used-r8 -fcall-used-r9
编译没有帮助; gcc 生成与推送 lr
相同的代码以获得额外的临时文件。它无法使用 ldmia
(加载多个),因为它对将哪个临时文件放入哪个 reg 做出了次优选择。 (&src1
in r0
将让它加载 src1
和 src2
到 r2
和 r3
.)
关于c - 为什么 gcc (ARM) 不使用全局寄存器变量作为源操作数?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36635242/
语境 我正在将一个旧的 php 电子商务网站变成一个用 gatsby.js 构建的静态网站。 我将所有产品元数据放入单独的 .json 文件(每个产品一个),并且我能够使用 json 和文件转换器插件
我曾经能够使用三指向上滚动在源/标题之间切换。自从升级到 Lion 后,我只进行常规滚动。有没有办法恢复该功能? Aka,当我像以前那样向上/向下滚动时,它不会跳到对应的位置。 更新 Apple 在
我有一个包含复选框输入的克隆元素。当克隆的元素未被选中时,我需要也取消选中源元素。有没有办法在 jQuery 中做到这一点?或者我是否以错误的方式处理这个问题(即使用clone())?我应该提到我的问
我有一个类,其中有两个 JSpinner 对象,x 和 y。我有一个更改监听器,它已添加到两者中。有人可以告诉我如何实现我的更改监听器,以便监听器可以区分两个对象之间的区别。例如伪代码: if(sou
我正在编写涉及 for 循环的代码,该循环在每个索引处进行计算。 这些计算中的最小值存储在一个变量中,我在程序末尾使用 MPI_Allreduce 来确定所有进程的全局最小值。 但是,我需要一种方法来
我需要在一个 Android 项目中创建一个 map View ,我从服务器获取自定义 map 图 block PNG。有人知道实现此类功能的简单许可 API 吗? 最佳答案 我使用了 OsmDroi
因为我必须创建一个可以更改图像 (src/background-url) 的函数。我想知道如何识别标签以及它是使用 src 还是 url 来访问图像。 让我们说 早些时候我写了一个可以
当我使用源 map 浏览器 https://github.com/danvk/source-map-explorer要检查捆绑包中的内容,我得到以下输出: D:\projects\angular\mT
我正在为客户将 Windev 应用程序移植到 Objective-C。出于显而易见的原因,使用以前的源代码会更简单。 不幸的是,它是加密的,我需要 EDI 才能看到它;完整版的 Windev 太贵了(
我有一个简单的视频播放器,它使用 WPF MediaElement 播放一系列视频。这些视频一起形成一个围绕静止图像移动的连续电影。在每个视频结束时,运动会卡住在当前播放视频的最后一帧。当我按下一个按
我需要更改 openlayer 的图层源(使用 open weather api)。目前我正在使用以下代码但没有成功。 let layer = this.map.getLayers().getArra
我正在尝试在 /dev/random 的机器上运行代码不会很快填满,我正在尝试使用的 Java 程序因缺少随机数而挂起。/dev/urandom产生“不太好”的随机数,但不会阻塞,对于这种情况,我宁愿
我需要 Yocto 项目的源代码包。我已经拥有整个项目的所有资源,但它们还包括开发工具。 我想有一种方法来生成将为目标图像构建的所有包的(修补的)源。因此,例如,如果目标图像包含 busybox,我想
如何对入侵者隐藏 iFrame src 假设我正在流式传输我的网络摄像头或我的电脑屏幕,这是 iframe 代码: 并且我不希望它在大多数浏览器上显示页面源中的流 URL 和检查功能! 这意
是否可以进入 Qt 源,例如qmainwindow.cpp,在 Qt Creator 中?目前我正在看到反汇编,但最好能看到源代码。 最佳答案 当然!但您可能必须首先: 转到 $QT_HOME/qt
我正在尝试创建一个包含很少动漫剧集的简单网站。我有一个关于 javascript 的问题。如何通过单击我的链接之一来更改视频源?我明白,我必须使用事件监听器,只需更改 取决于我点击的链接,但我不太擅长
我有一个带有 BindingSouce 的 DevExpress GridControl。我想清除 BindingSource 并用新数据填充它。我这样做: var list = new List()
当单击提交输入按钮时,我尝试将其他参数(选定复选框的列表)传递到服务器处理的 DataTables 表#my_table: 这可能意味着我必须将 my_table.sAjaxSource 设置为后端脚
(好吧,别对我大喊大叫,这里已经很晚了:)) 我正在研究 delta diff 工具(命令行工具或组件,只要我可以从 Delphi 2010 调用它们就可以了) 我有这个项目,我将文件上传到服务器,我
我需要解析 Yahoo Weather RSS feed 中的某个位置,例如 http://weather.yahooapis.com/forecastrss?w=44418&u=c例如,获取最高、最
我是一名优秀的程序员,十分优秀!