- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
为什么编译器不优化 Iterator::Incr
中内联代码的寄存器使用在下面显示的代码示例中? (Visual Studio 2015,/O2 优化设置)
当我使用本文底部显示的 C++ 代码并引用迭代器时,方法 Iterator::Incr
内联在Interpolator::InterpolateFast
内.但是,生成的汇编代码显示内存 访问Iterator::_rem
, 虽然为了提高效率,这个类成员变量可以放在内部循环的 register 中。
$LL2@Interpolat:
00020 41 01 19 add DWORD PTR [r9], ebx ; memory access to Iterator::_rem (slow)
00023 4d 63 01 movsxd r8, DWORD PTR [r9]
...
0003e 75 e0 jne SHORT $LL2@Interpolat
当我编译迭代器被复制的快速版本时,汇编代码放置Iterator::_rem
在处理器寄存器内部,只使用一次内存访问数组元素本身。
$LL2@Interpolat:
; 699 : _rem += _incr;
00011 45 03 c2 add r8d, r10d ; Iterator::_rem placed inside registers (fast)
...
当使用对 Iterator 类的引用时,编译器似乎会假定该类已被修改或访问 InterpolateFast
(例如,通过并发线程),从而避免寄存器优化。
如何在不复制迭代器的情况下使用处理器寄存器实现内联方法的优化?
typedef unsigned int BYTE;
class Iterator
{
public:
Iterator() {}
Iterator (const Iterator& it) :
_rem (it._rem), _incr (it._incr) {}
inline int Incr (const BYTE* &pSrc)
{
_rem += _incr;
pSrc += _rem >> 16;
return _rem;
}
private:
int _rem;
int _incr;
friend class Interpolator;
};
class Interpolator
{
public:
Interpolator (BYTE* p) : _p (p) {}
int InterpolateFast (int len)
{
int sum = 0;
const BYTE *p = _p;
Iterator& it (_it); // slow version, memory accesses to it._rem
// Iterator it (_it); // fast version, registers optimized
while (len--)
{
int rem = it.Incr (p);
sum += p[0] * rem;
}
return sum;
}
private:
Iterator _it;
const BYTE* _p;
};
int main()
{
BYTE arr[1000];
Interpolator ip (arr);
volatile int sum = ip.InterpolateFast (1000);
return 0;
}
(请注意,这篇文章的代码已经过简化,没有任何有意义的功能。)
最佳答案
问题在于,在函数的末尾,_it
必须已通过调用 Incr
进行了修改。通过复制,唯一需要更新的对象被销毁,因此更新对外部不可见。
显然,编译器可以在循环结束时更新内存,但在出现早期返回或异常时这很棘手。你和我都可以看到这不适用于此处,但编译器可能已经迷路了。
还有一个问题是,如果循环内有更复杂的调用,编译器将需要确保 _it
在循环内更新。
最简单的解决方法是:
Iterator it (_it); // fast version, registers optimized
while (len--)
{
int rem = it.Incr (p);
sum += p[0] * rem;
}
_it = it; // ****** Added line
return sum;
顺便说一下,你有没有显示内存访问速度慢的时间?第一次迭代后,它会在 L1 缓存中,这并不比寄存器慢多少。 (This answer 建议可能还有 3-5 个周期,这可能会与其他内容重叠。)
关于c++ - 内联类方法的寄存器优化不足,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41803607/
所以我正在为考试复习,并在 SQL 河(或荒地)中撞到了一块大石头 我制作了以下表格并插入了以下数据: create table Permissions ( fileName VARCHAR(
我有一个使用 maxWidth 定义的 jqueryui 对话框。 $("#myDialog").dialog({ autoOpen: false, width: 'a
注意:我遗漏了不相关的代码 所以我目前正在研究 CCC 1996 P1,这个问题的全部目的是能够计算一个整数输入是完美数、不足数还是充数。我上面列出的代码可以工作,但是我认为它太慢了。该代码会迭代每个
已关闭。此问题需要 debugging details 。目前不接受答案。 编辑问题以包含 desired behavior, a specific problem or error, and the
我正在使用 Go 和 Redis 开发 API。问题是RAM使用不足,我找不到问题的根源。 TL;DR 版本 有数百/数千个哈希对象。每个 1 KB 的对象(键+值)占用大约 0.5 MB 的 RAM
在我的 GCE Kubernetes 集群上,我无法再创建 pod。 Warning FailedScheduling pod (www.caveconditions.com-f1be467e3
当我尝试在EKS Fargate群集上安装指标服务器时,它抛出错误: 0/4 nodes are available: 4 Insufficient pods. 按照以下说明从此处安装指标服务器:ht
遍布this document Apple 提到 iOS 在某些情况下会终止应用程序,最常见的原因似乎是释放一些 RAM。这会导致未实现状态恢复的应用程序出现问题——用户正在处理和暂时离开的一些内容可
尝试处理一个10分钟的音频文件时出现以下错误。我刚刚开始使用Google Cloud产品,所以我是唯一访问此资源的人。我怎么可能超出配额?配额设置为其默认值,我认为我没有任何限制。还有其他原因吗? 我
R 语言让我感到困惑。实体有模式和类,但即使这样也不足以完全描述实体。 这个answer说 In R every 'object' has a mode and a class. 所以我做了这些实验:
我在 west-1 有一个 Openshift v3 项目。在其中,我有一个运行良好的应用程序,但在 GitHub 提交代码中非常下游的内容后,该应用程序停止工作。问题在于制作 pod: No nod
我在 west-1 有一个 Openshift v3 项目。在其中,我有一个运行良好的应用程序,但在 GitHub 提交代码中非常下游的内容后,该应用程序停止工作。问题在于制作 pod: No nod
在 how-do-i-access-the-stackoverflow-api-from-mathematica我概述了如何使用 SO API 让 Mathematica 制作一些有趣的顶级回答者声誉
所以在 GKE 上,我有一个 Node.js app,每个 pod 使用大约:CPU(cores): 5m, MEMORY: 100Mi 但是我只能为每个 Node 部署 1 个 pod。我使用的是
我正在使用 async.eachOfSeries 超过 300 个数组并请求一些 GA api,它工作正常但有时我会收到错误.. UnhandledPromiseRejectionWarning:错误
我正在尝试在 AWS ec2 上托管的 kubernetes 集群上使用 mr3 设置配置单元。当我运行命令 run-hive.sh 时,Hive 服务器启动,并且 master-DAg 被初始化,但
创建订阅时有时会出现以下错误: Insufficient tokens for quota 'administrator' and limit 'CLIENT_PROJECT-100s' of ser
我是一名优秀的程序员,十分优秀!