- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在对以下代码进行基准测试 for (T& x : v) x = x + x;
其中 T 是 int
。使用 mavx2
编译时,性能会根据某些条件波动 2 倍。这不会在 sse4.2
我想了解发生了什么。
我正在使用 Google 基准测试。它旋转循环,直到确定时间为止。
主要的基准测试代码:
using T = int;
constexpr std::size_t size = 10'000 / sizeof(T);
NOINLINE std::vector<T> const& data()
{
static std::vector<T> res(size, T{2});
return res;
}
INLINE void double_elements_bench(benchmark::State& state)
{
auto v = data();
for (auto _ : state) {
for (T& x : v) x = x + x;
benchmark::DoNotOptimize(v.data());
}
}
然后我从基准驱动程序的多个实例调用 double_elements_bench
。
-mavx2 --std=c++20 --stdlib=libc++ -DNDEBUG -g -Werror -Wall -Wextra -Wpedantic -Wno-deprecated-copy -O3
我确实将所有函数都对齐到128来尝试,没有效果。
当复制 2 次时,我得到:
------------------------------------------------------------
Benchmark Time CPU Iterations
------------------------------------------------------------
double_elements_0 105 ns 105 ns 6617708
double_elements_1 105 ns 105 ns 6664185
与重复 3 次:
------------------------------------------------------------
Benchmark Time CPU Iterations
------------------------------------------------------------
double_elements_0 64.6 ns 64.6 ns 10867663
double_elements_1 64.5 ns 64.5 ns 10855206
double_elements_2 64.5 ns 64.5 ns 10868602
这也会在更大的数据大小上重现。
我寻找我知道可能与代码对齐相关的计数器
LSD 缓存(由于几年前的一些安全问题,它在我的机器上关闭)、DSB 缓存和分支预测器:
LSD.UOPS,idq.dsb_uops,UOPS_ISSUED.ANY,branches,branch-misses
慢速案例
------------------------------------------------------------
Benchmark Time CPU Iterations
------------------------------------------------------------
double_elements_0 105 ns 105 ns 6663885
double_elements_1 105 ns 105 ns 6632218
Performance counter stats for './transform_alignment_issue':
0 LSD.UOPS
13,830,353,682 idq.dsb_uops
16,273,127,618 UOPS_ISSUED.ANY
761,742,872 branches
34,107 branch-misses # 0.00% of all branches
1.652348280 seconds time elapsed
1.633691000 seconds user
0.000000000 seconds sys
快速案例
------------------------------------------------------------
Benchmark Time CPU Iterations
------------------------------------------------------------
double_elements_0 64.5 ns 64.5 ns 10861602
double_elements_1 64.5 ns 64.5 ns 10855668
double_elements_2 64.4 ns 64.4 ns 10867987
Performance counter stats for './transform_alignment_issue':
0 LSD.UOPS
32,007,061,910 idq.dsb_uops
37,653,791,549 UOPS_ISSUED.ANY
1,761,491,679 branches
37,165 branch-misses # 0.00% of all branches
2.335982395 seconds time elapsed
2.317019000 seconds user
0.000000000 seconds sys
在我看来两者差不多。
我认为这可能是从 malloc
0x4f2720 在快速情况下和0x8e9310 慢速
所以 - 由于 clang 不对齐 - 我们得到未对齐的读/写。我测试了一个对齐的转换 - 似乎没有这种变化。
有办法确认吗?
最佳答案
是的,数据未对齐可以解释适合 L1d 的小型阵列速度降低 2 倍的原因。您希望在所有其他加载/存储都是缓存行拆分的情况下,如果拆分加载或存储花费 2 次访问 L1d 而不是 1 次,它可能只会减慢 1.5 倍,而不是 2 倍。
但是它有额外的效果,比如取决于加载结果的 uops 的重播,这显然可以解释其余的问题,要么使乱序执行不太能够重叠工作和隐藏延迟,要么直接遇到瓶颈,比如“拆分寄存器”。
ld_blocks.no_sr
计算缓存行拆分加载被临时阻止的次数,因为用于处理拆分访问的所有资源都在使用中。
当加载执行单元检测到加载拆分到缓存行时,它必须将第一部分保存在某处(显然在“拆分寄存器”中),然后访问第二个缓存行。在像您这样的 Intel SnB 系列 CPU 上,第二次访问不需要 RS 再次将负载 uop 分派(dispatch)到端口;加载执行单元只是在几个周期后执行它。 (但大概不能在与第二次访问相同的周期内接受另一个负载。)
拆分加载的额外延迟,以及等待这些加载结果的 uops 的潜在重播,是另一个因素,但这些也是未对齐加载的相当直接的后果。 ld_blocks.no_sr
的大量计数告诉您 CPU 实际上用完了拆分寄存器,否则可能会做更多的工作,但由于未对齐的负载本身而不得不停止,而不仅仅是其他影响。
如果您想调查详细信息,您还可以查找由于 ROB 或 RS 已满而导致的前端停顿,但无法执行拆分加载会使这种情况发生得更多。因此,所有后端停顿可能都是未对齐加载的结果(如果从存储缓冲区提交到 L1d 也是一个瓶颈,则可能是存储。)
On a 100KB I reproduce the issue: 1075ns vs 1412ns. On 1 MB I don't think I see it.
对于大型数组(512 位向量除外),数据对齐通常不会产生太大差异。随着缓存行(2x YMM 向量)到达频率降低,后端有时间处理未对齐加载/存储的额外开销,并且仍然跟上。硬件预取做得很好,它仍然可以最大化每核 L3 带宽。对于适合 L2 但不适合 L1d(如 100kiB)的大小,预计会看到较小的效果。
当然,大多数类型的执行瓶颈都会表现出类似的效果,甚至是像未优化的代码这样简单的事情,它会为数组数据的每个向量执行一些额外的存储/重新加载。因此,这本身并不能证明它是错位导致了适合 L1d 的小尺寸(例如 10 KiB)的减速。但这显然是最明智的结论。
代码对齐或其他前端瓶颈似乎不是问题;根据 idq.dsb_uops
,您的大部分 uops 来自 DSB。 (相当多的人不是,但慢速与快速之间的百分比差异不大。)
How can I mitigate the impact of the Intel jcc erratum on gcc?对于像您这样的 Skylake 衍生微体系结构可能很重要;甚至有可能这就是为什么您的 idq.dsb_uops
不接近您的 uops_issued.any
的原因。
关于performance - 哪种对齐方式会导致这种性能差异,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/71090526/
我希望能够像在 jsFiddle 中那样将元素列表对齐到右侧的复选框。这是如何做到这一点的最佳实践?传统上我从来没有 float 过相互嵌套的元素,所以我想确定这是否是解决此问题的正确方法。 代码(h
指令.align n是什么意思在数组中做什么? 更具体地说,假设我有以下部分代码: array: .align 2 .space 800 它的重要性是什么,为什么不跳过它并使用
基本上我正在寻找一种强制特定相对对齐的方法 即我想保证其他一些值(value) m s.t m > n alignment_of(foo) % 2^m == 2^n IE: .align 2^m; .
在我的代码中,我必须考虑一个数组数组,其中内部数组具有固定维度。为了使用 STL 算法,将数据实际存储为数组的数组很有用,但我还需要将该数据传递给 C 库,该库采用扁平化的 C 样式数组。 如果能够以
横向上,我想显示两个位图,并在它们之间显示一个标签字段。 代码看起来很简单,但所有字段都添加在屏幕左侧。 HorizontalFieldManager hfm = new HorizontalFiel
我想绘制一个变量名称及其符号。因为某些变量的名称很长,所以我试图将换行符与轴标签混合使用。这会导致对齐中发生有趣的事情: par(mar=c(1,12,1,1)) plot( y=1:6, 1:6,
使用这个脚本 df <- data.frame(x = 1:5, y = 1:5, color = letters[1:5]) ggplot(df, aes(x, y, fill = color))
我有一个带有标量字段的结构,比如妈妈,我想在屏幕上对齐的列中显示结构的值,可能还有一些标题。这是一个最小的工作示例: mom.a = 1; mom.b = 2; mom.veryLongName =
在 iOS6 中,我使用自动布局。 我有 2 个以编程方式创建的 View v1 和 v2。 v2 作为 subview 添加到 v1 v1 的约束已通过编程方式创建(此处未显示)。 我希望 v1 和
概述 浏览时operator new, operator new[] - cppreference.com ,似乎我们有许多选项来分配具有特定对齐要求的对象数组。但是,没有指定如何使用它们,而且我似乎
Widget _createProfileContainer() { return new Container( height: 64.0, child: ne
我正在使用 Bootstrap 和语义 UI 的组合来设计和对齐我的网页。目前,我在将页面 api map 和博客文章在整个页面上对齐时遇到问题,而不是像图像所示 那样堆叠在一起。 这是我的底层代码,
所以我已经添加了标签和所有内容,但我仍然在格式化和对齐所有内容时遇到问题。计算按钮显然应该居中。我知道使用 gridbag 将框架分割成坐标系,当一列大于其他列时,它会调整其他列并将其抛弃(对吗?)。
我必须将程序上的按钮对齐到中间,我运行的当前代码但显示的按钮与程序一样大,我想要一个特定大小的中心按钮,这是我尝试过的 /** * Created by Timk9 on 11/04/2016.
我正在尝试将 VIM 作为我的 ruby/rails 编辑器。太胖了,我对它的功能印象深刻 并且我能够安装以下插件以提供更好的 IDE 体验 自动配对 Better-snipmate-snippe
在结构内对齐成员的最佳或常规方法是什么?添加虚拟数组是最佳解决方案吗? 我有一个 double 的结构和 double 的三倍是吗? struct particle{ double mass;
我正在尝试对齐我的输出,但由于某种原因我无法做到我多么想要它,这真的很令人沮丧。标题不会正确对齐。我不知道我是否正确使用了 setw()。 #include using std::cout; usi
我正在开发一个 android 应用程序,其相对布局如下所示。 这是应用程序在屏幕上的显示方式的 imgur 链接:http://imgur.com/c4rNJ .我希望“Text 1”出现在“a l
我不确定为什么我不能在下面的代码中调整按钮的位置。我有几行设置了边界,但我一定遗漏了一些东西。 public DayGUI() { mainFrame = new JF
我有一个 html 页面,我想在页面底部对齐一个 iframe,使 iframe 占据所有宽度,我无法在底部对齐 iframe。请找到底部的 iframe 标签页面。 The rest of th
我是一名优秀的程序员,十分优秀!