- Java 双重比较
- java - 比较器与 Apache BeanComparator
- Objective-C 完成 block 导致额外的方法调用?
- database - RESTful URI 是否应该公开数据库主键?
我读到一个完美预测的分支的开销为零/几乎为零。 (例如:https://stackoverflow.com/a/289860/8038490)我不太了解人们的意思。至少必须评估分支条件,这可能是简单的 bool 或函数调用,需要花费时间。
最佳答案
概括
即使可以完美地预测,评估分支条件也要花费一些工作,但是由于现代CPU的内部并行性,不需要额外的工作就增加了特定指令序列的成本。
细节
我认为困惑的部分原因是许多人为执行CPU指令而拥有的心理表现模型。是的,每条指令都需要做一些工作,因此这意味着每条指令在执行时间上的成本是多么小,对吗?
如果将总执行成本简单地加到每条指令的工作中,那将是正确的-您只需将所有工作加在一起并得到最终成本。由于现代CPU中的并行性问题很大,因此它并不是那样工作的。
认为这就像组织生日聚会。您可能需要购买耗时10分钟的面粉,然后烤制一个需60分钟的蛋糕,然后拿起30分钟外的特殊礼物。这些时间是 Activity 所需的所有“工作”。但是,有人可以在拿起面粉和烘烤蛋糕时去拿礼物。但是,如果没有面粉,就无法烘烤蛋糕。因此,您有两个依赖链:70分钟的购买面粉->烤蛋糕链和30分钟的提货礼品链。通过无限的并行性,只有70分钟的蛋糕相关链有助于一切准备就绪的时间。拿礼物需要30分钟的工作时间,但最终却不花时间(不会延迟所有任务的完成),这是因为其他工作需要更长的时间(也就是关键路径)并且是并行进行的。
可以并行执行更多额外的任务,直到用尽所有人来分配给他们。 (那时,执行吞吐量限制开始增加延迟,这称为资源冲突。如果资源冲突延迟了关键路径,而不是较短的依赖链之一。CPU不知道/将要依赖哪个依赖链。是关键路径,因此他们的计划安排不会像聪明的人在此计划类比中那样优先考虑它。)
有关如何将这些内容直接应用于CPU的较抽象和更实际的了解,请参见A Whirlwind Introduction to Dataflow Graphs。
一旦有了这种新的思维模型,其中指令序列的成本通常由该序列中的一些关键路径决定,那么我们就可以开始理解为什么预测良好的分支通常成本很低或为零:
int mul1(int count, int x) {
do {
x *= 111;
} while (--count);
return x;
}
count
和一个起始值
x
,它将
x
乘以111
count
次并返回结果。循环
assembles到3条指令,一条用于乘法,一条用于
--count
,以及一个分支,用于检查
count
值:
.L2:
imul eax, eax, 111
sub edi, 1
jne .L2
int mul2(int count, int x) {
do {
x *= 111;
if (x == 0) {
abort();
}
} while (--count);
return x;
}
x
的测试,而分支的测试表明
x
为零:
.L7:
imul eax, eax, 111
test eax, eax
je .L12 ; ends up calling abort
sub edi, 1
jne .L7
Running benchmarks groups using timer libpfc
** Running benchmark group stackoverflow tests **
Benchmark Cycles
No branch 3.000
Added test-branch 3.000
关于c++ - 完美预测分支的分支预测开销,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49312285/
我想知道,通过数据 channel 发送数据时 WebRTC 会产生多少开销。 我知道 Websockets 每帧有 2 - 14 字节的开销。 WebRTC 是否使用更多开销?我在网上找不到一些有用
我想知道与创建新类而不是该类的新对象相关的开销是小还是大。我正在使用 dojo,但我将提供纯 JS 的示例。我将在启动时创建 10 到 100 个对象,我认为这不会是一个严重的问题,但我想涵盖所有基础
我有一个如下所示的表设置。 Table comment_flags user_id comment_id 我允许用户标记评论,然后给他们取消标记的选项,因为他们可能犯了一个错误。 问题
这个问题已经有答案了: 已关闭10 年前。 Possible Duplicate: In MySQL what does “Overhead” mean, what is bad about it,
我正在制作一个非常简单的游戏,只是为了好玩/练习,但无论它现在有多简单,我仍然想很好地编写它,以防我想回到它并只是为了学习 因此,在这种情况下,我的问题是: 对象分配涉及多少开销?解释器对此的优化程度
我有一些资源敏感的东西要写。我想知道与仅将这些变量一起传递(例如作为函数参数)相比,在结构中将变量组合在一起是否真的会导致内存开销。 如果是这样,那么在不产生开销的情况下创建对惰性值进行操作的东西的好
我一直在开发一个实时应用程序,并注意到一些 OOP 设计模式在 Python 中引入了难以置信的开销(使用 2.7.5 进行了测试)。 直截了当,当字典被另一个对象封装时,为什么简单的字典值访问器方法
我正在从 ifstream 中读取随机 ascii 文本文件。我需要能够将整个消息放入字符串类型以进行字符解析。我当前的解决方案有效,但我认为我通过使用等效于此的方式来谋杀更冗长文件的处理时间: st
纯粹从软件工程的角度来看,getActivity() 有多少开销? 我在整个应用程序中经常多次使用此方法,并考虑使用一个引用 getActivity() 的全局变量。 如果为 Activity 设置一
我一直在研究 Riccardo Terrell 的 Akka.NET 分形演示 (https://github.com/rikace/akkafractal) 以尝试理解它。 (这很棒,顺便说一句)
我正在尝试使用高分辨率计时器查找我的代码运行时间,我注意到计时器的结果不一致,我想知道为什么会这样。 我找到了这篇文章 How do you test running time of VBA code
我正在学习WPF。我现在开始装订了。使用 INotifyPropertyChanged 时绑定(bind)是否依赖反射?是这样,价格是多少?我正在考虑使用 WPF 来显示通过 UDP 流式传输的数据,
我有某种模板化基类 template class Base { }; 并希望将其派生实例存储在列表中。为此,我使用 using derived_handle = std::unique_ptr v
使用GHC.TypeLits中的Sing有任何开销吗? ?以程序为例: {-# LANGUAGE DataKinds #-} module Test (test) where import GHC.T
我有某种模板化基类 template class Base { }; 并希望将其派生实例存储在列表中。为此,我使用 using derived_handle = std::unique_ptr v
我有一个 ORM sqlalchemy 模型,我需要构建一个查询(使用 ORM 类更容易构建),但这需要大量时间。当我直接像 SQL 一样向数据库执行相同的查询时,速度相当快。 使用 SQLAlche
我在 PHP 平台上有一家商店(开发不善),那里有很多不好的查询(没有索引的长查询、rand() 排序、动态计数,..) 我现在无法更改查询,但我必须调整服务器才能保持事件状态。 我尝试了我所知道的一
我有一个使用 JQuery mobile 构建的移动应用程序,响应时间对我来说非常重要,因为我希望为我的用户提供流畅的体验。 我刚刚将网站的安装移至本地服务器,以提高应用程序的性能,因为它连接到本地
关于数据库设计的问题。如果我有 28 个 bool 值并且能够将它们添加为每行 28 个 bool 值或一个整数,哪一个会更快?哪种方法将使磁盘上的表大小保持最低? 这是在假设我需要的可以通过查询中的
我有一个看起来像 Boost.Array 的简单类。有两个模板参数 T 和 N。Boost.Array 的一个缺点是,每个使用这种数组的方法都必须是带有参数 N 的模板(T 可以)。结果是整个程序往往
我是一名优秀的程序员,十分优秀!