- iOS/Objective-C 元类和类别
- objective-c - -1001 错误,当 NSURLSession 通过 httpproxy 和/etc/hosts
- java - 使用网络类获取 url 地址
- ios - 推送通知中不播放声音
我有一个程序,它的核心是一个二维数组,形式为 a
std::vector<std::vector< int > > grid
还有一个简单的双 for 循环,有点像这样:
for(int i=1; i<N-1; ++i)
for(int j=1; j<N-1; ++j)
sum += grid[i][j-1] + grid[i][j+1] + grid[i-1][j] + grid[i+1][j] + grid[i][j]*some_float;
使用 g++ -O3
它运行得非常快,但为了进一步优化,我使用 callgrind 进行了分析,发现 L1 缓存未命中率约为 37%,而 LL 为 33%,虽然很多但也不算太多考虑到计算的随机性,这令人惊讶。所以我做了一个配置文件引导的优化 la
g++ -fprofile-generate -O3 ...
./program
g++ -fprofile-use -O3 ...
程序运行速度提高了大约 48%!但令人费解的是:缓存未命中甚至增加了! L1 数据缓存未命中率现在为 40%,LL 相同。
怎么可能呢?循环中没有可以优化预测的条件,缓存未命中率甚至更高。但速度更快。
编辑:好的,这是 sscce:http://pastebin.com/fLgskdQG .在不同的运行时使用 N。编译通过
g++ -O3 -std=c++11 -sscce.cpp
在 linux 下的 gcc 4.8.1 上。
使用上述命令进行配置文件引导的优化。 Callgrind 是通过 g++ -g 开关和 valgrind --tool=callgrind --simulate-cache=yes ./sscce
最佳答案
我注意到使用或不使用 PGO 生成的汇编代码之间只有一个显着差异。如果没有 PGO,sum
变量从寄存器溢出到内存,每次内部循环迭代一次。理论上,将变量写入内存并将其加载回内存可能会显着降低速度。幸运的是,现代处理器通过存储到加载转发对其进行了优化,因此速度下降的幅度并不大。 Intel 的优化手册仍然不建议将浮点变量溢出到内存中,尤其是当它们由长延迟操作(如浮点乘法)计算时。
这里真正令人费解的是为什么 GCC 需要 PGO 来避免寄存器溢出到内存。未使用的浮点寄存器已经足够了,即使没有 PGO 编译器也可以从单个源文件中获取适当优化所需的所有信息...
这些不必要的加载/存储操作不仅解释了为什么 PGO 代码更快,还解释了为什么它增加了缓存未命中的百分比。没有 PGO 寄存器总是溢出到内存中的相同位置,因此这种额外的内存访问会增加内存访问次数和缓存命中次数,同时不会改变缓存未命中次数。使用 PGO,我们有更少的内存访问,但缓存未命中的数量相同,因此它们的百分比增加了。
关于c++ - 配置文件引导优化后嵌套 for 循环更快,但缓存未命中率更高,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22973535/
我阅读了有关 JSR 107 缓存 (JCache) 的内容。 我很困惑:据我所知,每个 CPU 都管理其缓存内存(无需操作系统的任何帮助)。 那么,为什么我们需要 Java 缓存处理程序? (如果C
好吧,我是 jQuery 的新手。我一直在这里和那里搞乱一点点并习惯它。我终于明白了(它并不像某些人想象的那么难)。因此,鉴于此链接:http://jqueryui.com/sortable/#dis
我正在使用 Struts 2 和 Hibernate。我有一个简单的表,其中包含一个日期字段,用于存储有关何时发生特定操作的信息。这个日期值显示在我的 jsp 中。 我遇到的问题是hibernate更
我有点不确定这里发生了什么,但是我试图解释正在发生的事情,也许一旦我弄清楚我到底在问什么,就可能写一个更好的问题。 我刚刚安装了Varnish,对于我的请求时间来说似乎很棒。这是一个Magneto 2
解决 Project Euler 的问题后,我在论坛中发现了以下 Haskell 代码: fillRow115 minLength = cache where cache = ((map fill
我正试图找到一种方法来为我网络上的每台计算机缓存或存储某些 python 包。我看过以下解决方案: pypicache但它不再被积极开发,作者推荐 devpi,请参见此处:https://bitbuc
我想到的一个问题是可以从一开始就缓存网络套接字吗?在我的拓扑中,我在通过双 ISP 连接连接到互联网的 HAProxy 服务器后面有 2 个 Apache 服务器(带有 Google PageSpee
我很难说出不同缓存区域 (OS) 之间的区别。我想简要解释一下磁盘\缓冲区\交换\页面缓存。他们住在哪里?它们之间的主要区别是什么? 据我了解,页面缓存是主内存的一部分,用于存储从 I/O 设备获取的
1.题目 请你为最不经常使用(LFU)缓存算法设计并实现数据结构。 实现 LFUCache 类: LFUCache(int capacity) - 用数据结构的容量 capacity 初始化对象 in
1.题目 请你设计并实现一个满足 LRU (最近最少使用) 缓存 约束的数据结构。 实现 LRUCache 类: ① LRUCache(int capacity) 以正整数作为容量 capacity
我想在访问该 View 时关闭某些页面的缓存。它适用于简单查询模型对象的页面。 好像什么时候 'django.middleware.cache.FetchFromCacheMiddleware', 启
documents为 ExePackage element state Cache属性的目的是 Whether to cache the package. The default is "yes".
我知道 docker 用图层存储每个图像。如果我在一台开发服务器上有多个用户,并且每个人都在运行相同的 Dockerfile,但将镜像存储为 user1_myapp . user2 将其存储为 use
在 Codeigniter 中没有出现缓存问题几年后,我发现了一个问题。我在其他地方看到过该问题,但没有适合我的解决方案。 例如,如果我在 View 中更改一些纯 html 文本并上传新文件并按 F5
我在 Janusgraph 文档中阅读了有关 Janusgraph Cache 的内容。关于事务缓存,我几乎没有怀疑。我在我的应用程序中使用嵌入式 janusgrah 服务器。 如果我只对例如进行读取
我想知道是否有来自终端的任何命令可以用来匹配 Android Studio 中执行文件>使缓存无效/重新启动的使用。 谢谢! 最佳答案 According to a JetBrains employe
我想制作一个 python 装饰器来内存函数。例如,如果 @memoization_decorator def add(a, b, negative=False): print "Com
我经常在 jQuery 事件处理程序中使用 $(this) 并且从不缓存它。如果我愿意的话 var $this = $(this); 并且将使用变量而不是构造函数,我的代码会获得任何显着的额外性能吗?
是的,我要说实话,我不知道varnish vcl,我可以解决一些基本问题,但是我不太清楚,这就是为什么我遇到问题了。 我正在尝试通过http请求设置缓存禁止,但是该请求不能通过DNS而是通过 Varn
在 WP 站点上加载约 4000 个并发用户时遇到此问题。 这是我的配置: F5 负载均衡器 ---> Varnish 4,8 核,32 Gb RAM ---> 9 个后端,4 个核,每个 16 RA
我是一名优秀的程序员,十分优秀!