- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
不久前,我正在阅读一些 Android performance tips当我经过时:
Foo[] mArray = ...
public void zero() {
int sum = 0;
for (int i = 0; i < mArray.length; ++i) {
sum += mArray[i].mSplat;
}
}
public void one() {
int sum = 0;
Foo[] localArray = mArray;
int len = localArray.length;
for (int i = 0; i < len; ++i) {
sum += localArray[i].mSplat;
}
}
谷歌说:
zero()
is slowest, because the JIT can't yet optimize away the cost of getting the array length once for every iteration through the loop.
one()
is faster. It pulls everything out into local variables, avoiding the lookups. Only the array length offers a performance benefit.
这完全有道理。但是在对我的计算机体系结构考试想得太多之后,我想起了 Branch Predictors :
a branch predictor is a digital circuit that tries to guess which way a branch (e.g. an if-then-else structure) will go before this is known for sure. The purpose of the branch predictor is to improve the flow in the instruction pipeline.
计算机不是假设 i < mArray.length
是 true
因此,并行计算循环条件和循环体(并且只预测最后一个循环的错误分支),有效消除任何性能损失?
我也在考虑Speculative Execution :
Speculative execution is an optimization technique where a computer system performs some task that may not be actually needed... The objective is to provide more concurrency...
在这种情况下,计算机将执行代码,就好像循环已经完成,又好像它仍在并发进行,再一次有效地抵消了与循环相关的任何计算成本条件(因为计算机在计算条件时已经在为 future 执行计算)?
本质上,我想要了解的事实是,即使 zero()
中的条件计算时间比 one()
稍长,计算机通常会在等待检索条件语句的答案时计算正确的代码分支,因此查找 myAray.length
的性能损失应该没关系(反正我是这么想的)。
这里有什么我没有意识到的吗?
抱歉问题的长度。
提前致谢。
最佳答案
您链接到笔记的网站:
zero() is slowest, because the JIT can't yet optimize away the cost of getting the array length once for every iteration through the loop.
我还没有在 Android 上测试过,但我假设现在是这样。这意味着对于循环的每次迭代,CPU 都必须执行从内存中加载 mArray.length
值的代码。原因是数组的长度可能会发生变化,因此编译器无法将其视为静态值。
而在 one()
选项中,程序员根据数组长度不会改变的知识显式设置 len
变量。由于这是一个局部变量,编译器可以将它存储在一个寄存器中,而不是在每次循环迭代中从内存中加载它。因此,这将减少循环中执行的指令数,并使分支更容易预测。
您说得对,分支预测有助于减少与循环条件检查相关的开销。但推测的可能性仍然有限,因此在每次循环迭代中执行更多指令会产生额外的开销。此外,许多移动处理器的分支预测器不太先进,不支持那么多的推测。
我的猜测是,在使用像 HotSpot 这样的高级 Java JIT 的现代桌面处理器上,您不会看到 3 倍的性能差异。但我不确定,这可能是一个有趣的实验。
关于java - 为什么局部可变长度 for 循环更快?分支预测不会减少查找时间的影响吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37708339/
我是 Bison 解析的新手,我无法理解它是如何工作的。我有以下语法,其中我保留了最低限度的语法来突出问题。 %left '~' %left '+' %token T_VARIABLE %% star
我链接了 2 个映射器和 1 个缩减器。是否可以将中间输出(链中每个映射器的 o/p)写入 HDFS?我尝试为每个设置 OutputPath,但它似乎不起作用。现在,我不确定是否可以完成。有什么建议吗
我正在编写一些代码来管理自定义磁盘文件结构并将其同步到未连接的系统。我的要求之一是能够在实际生成同步内容之前估计同步的大小。作为一个简单的解决方案,我整理了一个包含完整路径文件名的 map ,作为高效
我来自一个 SQL 世界,其中查找由多个对象属性(published = TRUE 或 user_id = X)完成,并且有 任何地方都没有加入 (因为 1:1 缓存层)。文档数据库似乎很适合我的数据
在 R 中,我有一个整数向量。从这个向量中,我想随机减少每个整数元素的值,以获得向量的总和,即初始总和的百分比。 在这个例子中,我想将向量“x”减少到向量“y”,其中每个元素都被随机减少以获得等于初始
我发现自己遇到过几次我有一个 reducer /组合 fn 的情况,如下所示: def combiner(a: String, b: String): Either[String, String]
Ubuntu 12.04 nginx 1.2.4 avconv版本 avconv version 0.8.10-4:0.8.10-0ubuntu0.12.04.1, Copyright (c) 200
我是 R 编程语言的新手。我有一个包含 2 列(ID 和 Num)的数据集,如下所示: ID Num 3 8 3 12 4 15 4 18 4
我正在使用高阶函数将函数应用于向量中的每个元素并将结果作为标量值返回。 假设我有: v = c(0, 1, 2, 3, 4, 5, 6, 7, 8) 我想计算以左边 5 个整数为中心的所有这些整数的总
关闭。这个问题需要debugging details .它目前不接受答案。 编辑问题以包含 desired behavior, a specific problem or error, and th
这个问题在这里已经有了答案: How to write the dataframes in a list to a single csv file (2 个回答) 5年前关闭。 我正在尝试使用 Red
刚开始学习CUDA编程,对归约有些迷茫。 我知道与共享内存相比,全局内存有很多访问延迟,但我可以使用全局内存来(至少)模拟类似于共享内存的行为吗? 例如,我想对长度恰好为 BLOCK_SIZE * T
我经常使用OptiPNG或pngcrush减小PNG图像的文件大小。 我希望能够从.NET应用程序中以编程方式执行此类操作。我正在动态生成要发送到移动设备的PNG,因此我想减小文件大小。 图像质量很重
减少和减少让您在序列上累积状态。 序列中的每个元素都会修改累积的状态,直到 到达序列的末尾。 在无限列表上调用reduce 或reductions 有什么含义? (def c (cycle [0]))
这与R: use the newly generated data in the previous row有关 我意识到我面临的实际问题比我在上面的线程中给出的示例要复杂一些 - 似乎我必须将 3 个
有什么办法可以减少.ttf字体的大小?即如果我们要删除一些我们不使用的glyps。 最佳答案 使用Google Web Fonts,您可以限制字符集,例如: //fonts.googleapis.co
我需要在iOS中制作一个应用程序,在她的工作过程中发出类似“哔”的声音。 我已经使用MPMusicPlayerController实现了与背景ipod的交互。 问题: 由于来自ipod的音乐音量很大,
我有一个嵌套 map m,如下所示: m = Map("电子邮件"-> "a@b.com", "背景"-> Map("语言"-> "英语")) 我有一个数组arr = Array("backgroun
有什么原因为什么不应该转发map / reduce函数中收到的可写内容? 我的意思是-每个map / reduce函数都有一个可写的键/值,并可能发出一个键/值对。如果我想执行一些过滤,我应该只发出接
假设我有一个数据列表 val data = listOf("F 1", "D 2", "U 1", "D 3", "F 10") 我想执行每个元素的给定逻辑。 我必须在外部添加 var acc2 =
我是一名优秀的程序员,十分优秀!