- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
下面是一个代码块,它执行记录标记为所有 L1-dcache 未命中的 10% 负责,但该 block 完全是 zmm 寄存器之间的移动。这是 perf 命令字符串:
perf record -e L1-dcache-load-misses -c 10000 -a -- ./Program_to_Test.exe
代码块:
Round:
vmulpd zmm1,zmm0,zmm28
VCVTTPD2QQ zmm0{k7},zmm1
VCVTUQQ2PD zmm2{k7},zmm0
vsubpd zmm3,zmm1,zmm2
vmulpd zmm4,zmm3,zmm27
VCVTTPD2QQ zmm5{k7}{z},zmm4
VPCMPGTQ k2,zmm5,zmm26
VPCMPEQQ k3 {k7},zmm5,zmm26
KADDQ k1,k2,k3
VCVTQQ2PD zmm2{k7},zmm0
VDIVPD zmm1{k7},zmm2,zmm28 ; Divide by 100
VPXORQ zmm2{k7},zmm2,zmm2
vmovupd zmm2,zmm1
VADDPD zmm2{k1},zmm1,zmm25
对于该代码块,我使用其他 L1 度量(例如 l1d.replacement)得到了类似的结果。
我的问题是,一个仅进行 zmm 寄存器移动的 block 如何会产生 L1 缓存未命中?我认为寄存器根本不会进入内存。事实上,最后一次内存访问是在该代码块之上的10条指令;其他9条指令都是寄存器到寄存器指令。
最佳答案
事件 L1-dcache-load-misses
映射到 Sandy Bridge 和更高版本的微架构上的 L1D.REPLACEMENT
(或映射到较旧的微架构上的类似事件)。此事件不支持精确采样,这意味着样本可能指向无法生成采样事件的指令。 (请注意,当前任何 Atom 都不支持 L1-dcache-load-misses
。)
从在 Haswell+ 或 Silvermont+ 微架构上运行的 Linux 3.11 开始,可以通过指定满足以下两个条件的采样事件,使用事件指令指针捕获样本:
L1D.REPLACMENT
具有相同的确切含义。在支持扩展 PEBS 的处理器上,只有 PEBS 事件的子集支持精确采样。mem_load_uops_retired.l1_miss:pp
指定给 Linux 性能。发生此类事件时,当事件计数器溢出时,PEBS 硬件就会启动,这意味着它现在正在寻找最早的机会来收集精确的样本。当至少有一条指令会在此时间窗口期间引发事件时,PEBS 硬件最终将由这些指令之一触发,并且偏向于高延迟指令。当触发PEBS的指令退出时,PEBS微码例程将执行并捕获PEBS记录,其中包含触发PEBS的指令的IP(与架构IP不同)等。 perf 用于显示结果的指令指针 (IP) 就是该事件 IP。 (我注意到可能有极少数样本指向不可能导致该事件的指令。)
在较旧的微架构(Haswell 和 Silvermont 之前)上,还支持“pp”精确采样级别。这些处理器上的 PEBS 将仅捕获架构事件,该事件指向按程序顺序紧随 PEBS 触发指令之后的静态指令。如果可能的话,Linux perf 使用 LBR,其中包含源-目标 IP 对来确定捕获的 IP 是否是跳转的目标。如果是这种情况,它会将源 IP 作为事件 IP 添加到示例记录中。
一些微架构支持一个或多个具有更好采样分布的事件(好多少取决于微架构、事件、计数器以及计数器即将溢出时正在执行的指令)。在 Linux perf 中,如果支持,可以通过指定精确级别“ppp”来启用精确分发。
关于linux - Perf 显示没有内存访问的 block 中的 L1-dcache-load-misses,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/63251365/
我的 blockly.js 文件中有以下代码 Blockly.Blocks['account_number'] = { // Other type. init: function() {
首先抱歉我的英语不好,我正在开发 Image Splitter 应用程序并且已经完成,但是现在的要求是当图像被分割(分成几 block /chunks)那么图像 block 的每一 block (ch
#value: 消息的返回值,当发送到一个 block 时,是该 block 中最后一句话的值。所以 [ 1 + 2. 3 + 4. ] value 计算结果为 7。我发现有时很难使用。有没有办法显式
我想构建一个包含 3 div 的响应式导航栏相同的 width和 height . 我申请了 inline-block到每个 block ,我得到一个我不理解的行为。 问题是,第三 block 由 2
我希望使用 Blockly 来允许非技术人员用户指定测试脚本。 它的一部分需要一个文件选择器,但是,我看不到 Blockly 有一个。是吗? 实际上,我找不到完整的标准 block 列表。谁有网址?
仅当您位于父 block 内部时,父 block 的 props.isSelected 才为 true,但当您在该 block 的 innerBlocks 内进行编辑时则不然。 如何从父 block
仅当您位于父 block 内部时,父 block 的 props.isSelected 才为 true,但当您在该 block 的 innerBlocks 内进行编辑时则不然。 如何从父 block
我想创建一个具有不同背景颜色 block 和不同悬停颜色 block 的导航栏 block 。我可以分别创建不同的悬停颜色 block 或不同的背景颜色 block ,但不能一起创建。所以请告诉我如何
我正在使用看到的代码 here定期执行代码: #define DELAY_IN_MS 1000 __block dispatch_time_t next = dispatch_time(DISPATC
为什么 block 必须被复制而不是保留?两者在引擎盖下有什么区别?在什么情况下不需要复制 block (如果有)? 最佳答案 通常,当您分配一个类的实例时,它会进入堆并一直存在,直到它被释放。但是,
我想弄清楚我这样做是否正确: 如果我有一个 block ,我会这样做: __weak MyClass *weakSelf = self; [self performBlock:^{
我想制作一个 4 block 导航菜单,虽然我已经显示了一个 block ,然后单击打开第二个 block ,从第二个开始选择并再次单击出现第三个 block ,第四个 block 相同...这是我的
例如,这样更好吗? try { synchronized (bean) { // Write something } } catch (Int
我想让一只乌龟检查前方小块的颜色并决定移动到哪里。如果前面的补丁不是白色的,那么乌龟向左或向右旋转并移动。我的 If 决策结构中出现错误,显示“此处应为 TRUE?FALSE,而不是 block 列表
我想创建一个 block 对角矩阵,其中对角 block 重复一定次数,非对角 block 都是零矩阵。例如,假设我们从一个矩阵开始: > diag.matrix [,1] [,2] [
我是区 block 链新手。突然我有一个问题,我们是否可以通过区 block 号来访问以太坊区 block 链上之前的区 block 数据。 例如我创建了一个block1、block2。 block
我是区 block 链新手。突然我有一个问题,我们是否可以通过区 block 号来访问以太坊区 block 链上之前的区 block 数据。 例如我创建了一个block1、block2。 block
我创建了一个等距环境,全部使用 Javascript 和 HTML5 (2D Canvas),大部分情况下工作正常。我面临的问题是使用不同高度的图 block ,然后对图 block 上的对象索引进行
这是令我困惑的代码: public Integer getInteger(BlockingQueue queue) { boolean interrupted = false; try
我有一个基于 TPL 数据流的应用程序,它仅使用批处理 block 和操作 block 就可以正常工作。 我已经添加了一个 TransformBlock 以尝试在发布到批处理 block 之前从源中转
我是一名优秀的程序员,十分优秀!