- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在尝试了解使用 CLFLUSH 对性能的影响。为此,我写了一个小指针追逐基准测试。我拿 std::vector<std::pair<size_t, size_t>>
其中第一个元素是下一个条目的偏移量,第二个元素是有效载荷。我从条目 0 转到下一个条目,依此类推,直到到达开头。在路上,我计算了所有有效载荷的总和。
另外,我有两个参数:If write==1
,我在读取后修改了有效负载(从而使缓存行无效)。如果clflush==1
, 我执行 CLFLUSH
在进入下一个元素之前。
vector 的大小等于 L1 缓存的大小 (32 KiB)。
这是我的结果:
write clflush runtime
0 0 5324060
0 1 298751237
1 0 4366570
1 1 180303091
我确实理解为什么使用 clflush 时运行速度比不使用时慢。但为什么读+写比写快,为什么它看起来比 CLFLUSH
快脏缓存行比干净缓存行?
作为引用,你可以找到我的基准here ,我使用 g++-4.8 -std=c++11 -lrt -O3
编译了它.
最佳答案
这可能不像一个答案,但我不认为您看到的效果是真实的。这是我在 Haswell i7-4770 上使用一些不同的编译器运行您的测试程序时看到的内容:
nate@haswell:~/stack$ chase-g481-orig
write clflush runtime
0 0 3238411
0 1 55916728
1 0 3220700
1 1 88299263
nate@haswell:~/stack$ chase-icpc-orig
write clflush runtime
0 0 3226673
0 1 53840185
1 0 4858013
1 1 88143220
nate@haswell:~/stack$ chase-clang-orig
write clflush runtime
0 0 13521595
0 1 54542441
1 0 3394006
1 1 88344640
它们之间有很多差异,但与您所看到的完全不符。我还在 Sandy Bridge E5-1620 上运行并发现了与这些相似的结果(与你的不匹配),尽管该机器上的旧版本的 clang++ 没有在 no-write no-flush 情况下爆炸。
首先,您的程序试图使用整个 L1 缓存有点尴尬。如果您可以完全控制系统(在启动时保留 CPU),这可能是合理的,但它似乎可能会引入混淆效果。如果您的目标是了解这种效果而不是查看缓存在满容量时的行为方式,我建议您将总大小更改为缓存大小的 1/2 或更少。
我认为最可能的解释是,不同的编译器将 clflush 提升到函数中的不同位置,其中一些并没有按照您的预期进行。当你在这个级别工作时,要真正说服编译器做你想做的事情是非常困难的。由于 clflush 内在函数实际上并没有改变结果,因此优化器规则通常会破坏您的意图。
我尝试查看生成的程序集 (objdump -d -C chase),但无法找到方向。一切都直接内联到 main 中,所以它不仅仅是查看 chase() 函数来查看发生了什么那么简单。使用 -g(用于调试)编译并向 objdump 命令添加 -S(用于源代码)有帮助,但仍然很复杂。我阻止编译器内联的尝试失败了。
如果是我,我会切换到 C 并使用 -fno-inline-functions 进行编译,然后检查是否仍能获得相同的效果。然后剖析 chase() 函数,直到您了解发生了什么。然后用gcc -S输出程序集,修改到顺序正确,看效果是否还在。
还值得注意的是,根据英特尔架构引用手册,clflush 不是序列化指令。即使汇编按照您认为应该的顺序进行,处理器执行之前和之后的指令也是公平的。考虑到你追逐的方式,我认为窗口不够宽,不能成为一个因素,但谁知道呢。您可以通过添加 mfence 来强制序列化。
另一种可能性是 clflush 在您的特定处理器上表现异常。您可以切换使用“wbinvd”的核选项以使所有缓存无效。这是一条很难执行的指令,因为它是“特权”指令,需要由内核执行。你必须写一个 ioctl 来做到这一点。
祝你好运!
关于c++ - 指针追逐基准 : Read+Write(+CLFLUSH) faster than Read(+CLFLUSH),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23429479/
我想创建一个 Python 基准测试列表。现在我只找到了 this 中的标准基准测试问题和一些来自 Computer Language Benchmarks Game . Python 还有其他基准测
我正在使用 apache 提供的基准文件 TestDFSIO 测试我的 hadoop 配置。我正在根据本教程(资源 1)运行它: http://www.michael-noll.com/blog/20
我刚刚安装了 Ruby 企业版,想对我的系统 Ruby 运行一些基准测试。是否有我应该实现的规范基准测试? 最佳答案 最有趣最深入Ruby benchmarks Antonio Cangiano 的系
我已经生成了基准,用于比较使用 ffmpeg 工具缩小视频文件 (mp4) 的两种方法。 基准以这种格式记录: x.mp4 Output_Resolution : 360p Method : A re
我正在使用 codeigniter 制作一个网站。 如果用户在他的评论中写入 {memory_usage} 2.75MB 将显示给他。它不会给 codeigniter 编写的代码带来安全漏洞吗?有什么
我正在尝试对 XSLT 的两个版本进行基准测试。目前我使用 Visual Studio 进行调试,因为从 .NET 组件调用的 xml 转换。 VS 2010 是我用于开发的 IDE。 我得到的唯一线
我想知道如何测量每个节点的内存带宽(流基准)。我的这个程序仅在一个节点上进行测量,进程和线程的数量如下: MPI_Comm_size(MPI_COMM_WORLD, &numranks); MPI_C
我正在关注 performance test Dapper 社区创建的。 目前,我在运行测试 10000 次后得到以下信息: EF 5 = 21595 毫秒 ADO.NET = 52183 毫秒 小巧
为了测量 CPU 的峰值 FLOPS 性能,我编写了一个小的 C++ 程序。但是测量结果给我的结果比我的 CPU 的理论峰值 FLOPS 大。怎么了? 这是我写的代码: #include #incl
有没有办法在 JUnit 测试套件中放置简单的开始/停止计时? 当我创建一个测试套件类时,它看起来像这样,我可以运行它。但是我怎么能在这里放一个简单的长开始时间变量来显示所有测试运行了多长时间? pu
我想测试MySQL数据库的InnoDB和MyRock引擎之间的高强度写入。为此,我使用 sysbench 进行基准测试。我的要求是: 多线程并发写入同一张表。 支持批量插入(每次插入事务都会插入大量记
我正在尝试构建一个 Nodejs Web 应用程序。当我添加更多代码时,最好有一种方法来测试此类更改对性能的影响,如果可能的话,以及我的应用程序在哪些方面花费最多时间。我目前正在使用 mocha 作为
我希望编写一个简单的每秒帧数动画基准 Javascript 实用程序。 FPS 在这里可能是一个模糊的术语,但理想情况下,它可以让我更准确地比较和衡量不同动画 (CSS3/canvas/webgl)
我是 Python 新手。这是我的第一种解释语言。到目前为止,我曾经学习过Java。因此,当 Java 程序第一次运行时,它的执行速度比下一次要慢。reasi 正在缓存。 import time de
我在 Ubuntu 虚拟机中使用 Apache 2.4.2。我用它来加载测试,向某些 HTTPS url 发送请求。失败请求数为零。但是我的请求都无法真正处理(已经在数据库中查找)。使用相同的 url
(我不确定这是否应该在 https://softwareengineering.stackexchange.com/ 上,如果您认为是,请评论) 我即将为我的学士论文创建 WebGL 实现的基准。我不
编辑: Clojure 基准测试已达到 the Benchmarks Game 。 我已经制作了这个问题社区 wiki 并邀请其他人保持更新。 有人知道 Clojure 的性能基准吗? 我自己做了一些
关注 this benchmark BSON 需要更多的磁盘空间和时间来创建、序列化、反序列化和遍历所有元素。 BSON 的一大优势是,它的遍历速度要快得多。那么这个基准有什么问题呢? 最佳答案 你的
我正在 NextFlow 上执行分散-聚集操作。 它看起来像下面这样: reads = PATH+"test_1.fq" outdir = "results" split_read_ch = chan
我无法让apache benchmark与我的网站配合使用。每当我发出此命令时 ab https://example.com/ 我会得到这个输出错误: This is ApacheBench, Ver
我是一名优秀的程序员,十分优秀!