java - 为什么局部可变长度 for 循环更快？分支预测不会减少查找时间的影响吗？-6ren

java - 为什么局部可变长度 for 循环更快？分支预测不会减少查找时间的影响吗？

转载作者：行者123 更新时间：2023-11-29 08:44:09

25

4

不久前，我正在阅读一些 Android performance tips当我经过时:

Foo[] mArray = ...

public void zero() {
    int sum = 0;
    for (int i = 0; i < mArray.length; ++i) {
        sum += mArray[i].mSplat;
    }
}

public void one() {
    int sum = 0;
    Foo[] localArray = mArray;
    int len = localArray.length;

    for (int i = 0; i < len; ++i) {
        sum += localArray[i].mSplat;
    }
}

谷歌说:

zero() is slowest, because the JIT can't yet optimize away the cost of getting the array length once for every iteration through the loop.

one() is faster. It pulls everything out into local variables, avoiding the lookups. Only the array length offers a performance benefit.

这完全有道理。但是在对我的计算机体系结构考试想得太多之后，我想起了 Branch Predictors :

a branch predictor is a digital circuit that tries to guess which way a branch (e.g. an if-then-else structure) will go before this is known for sure. The purpose of the branch predictor is to improve the flow in the instruction pipeline.

计算机不是假设 i < mArray.length 是 true 因此，并行计算循环条件和循环体(并且只预测最后一个循环的错误分支)，有效消除任何性能损失？

我也在考虑Speculative Execution :

Speculative execution is an optimization technique where a computer system performs some task that may not be actually needed... The objective is to provide more concurrency...

在这种情况下，计算机将执行代码，就好像循环已经完成，又好像它仍在并发进行，再一次有效地抵消了与循环相关的任何计算成本条件(因为计算机在计算条件时已经在为 future 执行计算)？

本质上，我想要了解的事实是，即使 zero() 中的条件计算时间比 one() 稍长，计算机通常会在等待检索条件语句的答案时计算正确的代码分支，因此查找 myAray.length 的性能损失应该没关系(反正我是这么想的)。

这里有什么我没有意识到的吗？

抱歉问题的长度。

提前致谢。

最佳答案

您链接到笔记的网站:

zero() is slowest, because the JIT can't yet optimize away the cost of getting the array length once for every iteration through the loop.

我还没有在 Android 上测试过，但我假设现在是这样。这意味着对于循环的每次迭代，CPU 都必须执行从内存中加载 mArray.length 值的代码。原因是数组的长度可能会发生变化，因此编译器无法将其视为静态值。

而在 one() 选项中，程序员根据数组长度不会改变的知识显式设置 len 变量。由于这是一个局部变量，编译器可以将它存储在一个寄存器中，而不是在每次循环迭代中从内存中加载它。因此，这将减少循环中执行的指令数，并使分支更容易预测。

您说得对，分支预测有助于减少与循环条件检查相关的开销。但推测的可能性仍然有限，因此在每次循环迭代中执行更多指令会产生额外的开销。此外，许多移动处理器的分支预测器不太先进，不支持那么多的推测。

我的猜测是，在使用像 HotSpot 这样的高级 Java JIT 的现代桌面处理器上，您不会看到 3 倍的性能差异。但我不确定，这可能是一个有趣的实验。

关于java - 为什么局部可变长度 for 循环更快？分支预测不会减少查找时间的影响吗？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/37708339/

25

4

0

文章推荐： java - 使用 Camel 和 Spring-boot 构建 REST 应用程序

文章推荐： java - Kotlin (Mutable)List<(raw) kotlin.Any?> 转换为 List

文章推荐： java - 遍历 Java 列表

文章推荐： php - 使用 PHP 或查询选择字符串/mysql 结果的中间部分

Bison 减少/减少
我是 Bison 解析的新手，我无法理解它是如何工作的。我有以下语法，其中我保留了最低限度的语法来突出问题。 %left '~' %left '+' %token T_VARIABLE %% star
hadoop链映射/减少
我链接了 2 个映射器和 1 个缩减器。是否可以将中间输出(链中每个映射器的 o/p)写入 HDFS？我尝试为每个设置 OutputPath，但它似乎不起作用。现在，我不确定是否可以完成。有什么建议吗
boost - 路径简化/减少
我正在编写一些代码来管理自定义磁盘文件结构并将其同步到未连接的系统。我的要求之一是能够在实际生成同步内容之前估计同步的大小。作为一个简单的解决方案，我整理了一个包含完整路径文件名的 map ，作为高效
CouchDB 在运行时通过任何文档属性映射/减少？
我来自一个 SQL 世界，其中查找由多个对象属性(published = TRUE 或 user_id = X)完成，并且有任何地方都没有加入 (因为 1:1 缓存层)。文档数据库似乎很适合我的数据
减少 R 中向量元素的总和
在 R 中，我有一个整数向量。从这个向量中，我想随机减少每个整数元素的值，以获得向量的总和，即初始总和的百分比。在这个例子中，我想将向量“x”减少到向量“y”，其中每个元素都被随机减少以获得等于初始
scala - 减少/折叠幺半群列表但减少器返回任一
我发现自己遇到过几次我有一个 reducer /组合 fn 的情况，如下所示: def combiner(a: String, b: String): Either[String, String]
nginx - 减少+30秒的HLS延迟
Ubuntu 12.04 nginx 1.2.4 avconv版本 avconv version 0.8.10-4:0.8.10-0ubuntu0.12.04.1, Copyright (c) 200
减少 R 中的行数
我是 R 编程语言的新手。我有一个包含 2 列(ID 和 Num)的数据集，如下所示: ID Num 3 8 3 12 4 15 4 18 4
减少 R 中的左折叠
我正在使用高阶函数将函数应用于向量中的每个元素并将结果作为标量值返回。假设我有: v = c(0, 1, 2, 3, 4, 5, 6, 7, 8) 我想计算以左边 5 个整数为中心的所有这些整数的总
减少 lapply 返回的元素数量
关闭。这个问题需要debugging details .它目前不接受答案。编辑问题以包含 desired behavior, a specific problem or error, and th
减少 R 中函数的额外参数
这个问题在这里已经有了答案: How to write the dataframes in a list to a single csv file (2 个回答) 5年前关闭。我正在尝试使用 Red
cuda - 减少 CUDA
刚开始学习CUDA编程，对归约有些迷茫。我知道与共享内存相比，全局内存有很多访问延迟，但我可以使用全局内存来(至少)模拟类似于共享内存的行为吗？例如，我想对长度恰好为 BLOCK_SIZE * T
.net - 减少.NET中的PNG文件大小
我经常使用OptiPNG或pngcrush减小PNG图像的文件大小。我希望能够从.NET应用程序中以编程方式执行此类操作。我正在动态生成要发送到移动设备的PNG，因此我想减小文件大小。图像质量很重
Clojure:减少，减少和无限列表
减少和减少让您在序列上累积状态。序列中的每个元素都会修改累积的状态，直到到达序列的末尾。在无限列表上调用reduce 或reductions 有什么含义？ (def c (cycle [0]))
R:传递多个参数来累加/减少
这与R: use the newly generated data in the previous row有关我意识到我面临的实际问题比我在上面的线程中给出的示例要复杂一些 - 似乎我必须将 3 个
fonts - 减少.ttf字体大小的方法？
有什么办法可以减少.ttf字体的大小？即如果我们要删除一些我们不使用的glyps。最佳答案使用Google Web Fonts，您可以限制字符集，例如: //fonts.googleapis.co
ios - 减少/减少我的应用程序中的背景ipod声音
我需要在iOS中制作一个应用程序，在她的工作过程中发出类似“哔”的声音。我已经使用MPMusicPlayerController实现了与背景ipod的交互。问题: 由于来自ipod的音乐音量很大，
Scala - 减少/向左折叠
我有一个嵌套 map m，如下所示: m = Map("电子邮件"-> "a@b.com", "背景"-> Map("语言"-> "英语")) 我有一个数组arr = Array("backgroun
hadoop - 转发可写的映射/减少
有什么原因为什么不应该转发map / reduce函数中收到的可写内容？我的意思是-每个map / reduce函数都有一个可写的键/值，并可能发出一个键/值对。如果我想执行一些过滤，我应该只发出接
kotlin - 减少/折叠中的两个累加器
假设我有一个数据列表 val data = listOf("F 1", "D 2", "U 1", "D 3", "F 10") 我想执行每个元素的给定逻辑。我必须在外部添加 var acc2 =

首页

博学

6Ren·AI

商城

java - 为什么局部可变长度 for 循环更快？分支预测不会减少查找时间的影响吗？