- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我试图了解分支预测单元如何在 CPU 中工作。
我用过 papi
还有 linux 的 perf-events
但他们都没有给出准确的结果(就我而言)。
这是我的代码:
void func(int* arr, int sequence_len){
for(int i = 0; i < sequence_len; i++){
// region starts
if(arr[i]){
do_sth();
}
// region ends
}
}
sequence_len
的图案.例如,如果我的尺码是 8,那么它的图案是
0 1 0 1 0 0 1 1
或类似的东西。
int func(){
papi_read(r1);
for(){
//... same as above
}
papi_read(r2);
return r2-r1;
}
int main(){
init_papi();
for(int i = 0; i < 10; i++)
res[i] = func();
print(res[i]);
}
100 #iter1
40 #iter2
10 #iter3
3
0
0
#...
int* func(){
int* results;
for(){
papi_read(r1);
if(arr[i])
do_sth();
papi_read(r2);
res[i] = r2-r1;
}
return res;
}
int main(){
init_papi();
for(int i = 0; i < 10; i++)
res[i] = func();
print(res[i]);
}
#1st iteration, 0 means no mispred, 1 means mispred
1 0 0 1 1 0 0 0 1 1 0... # total of 200 results
Mispred: 100/200
#2nd iteration
0 0 0 0 1 0 0 0 1 0 0... # total of 200 results
Mispred: 40/200 # it learned from previous iteration
#3rd iteration
0 0 0 0 0 0 0 0 1 0 0... # total of 200 results
Mispred: 10/200 # continues to learn
#...
#1st iteration
1 0 0 1 1 0 0 0 1 1 0... # total of 200 results
Mispred: 100/200
#2nd iteration
1 0 0 0 1 1 0 1 0 0 0... # total of 200 results
Mispred: 100/200 # it DID NOT learn from previous iteration
#3rd iteration
0 1 0 1 0 1 0 1 1 0 0... # total of 200 results
Mispred: 100/200 # NO LEARNING
#...
papi
调用。
papi_start, branch_outcome1, branch_outcome2, branch_outcome3, ..., papi_end, papi_start (2nd loop of main iteration), branch_outcome1, ...
papi_start, branchoutcome1, papiend, papistart, branchoutcome2, papiend...
perf-event
但它使
ioctl
调用,这是一个系统调用,我用系统调用污染了全局历史,因此,不是一个好的度量。
rdpmc
和
rdmsr
并且我假设由于它们只是指令,我不会污染全局历史,并且我可以一次测量单个分支指令。
最佳答案
您已经假设 PAPI 和/或 perf_events 代码的占用空间相对较小。这是不正确的。如果您将性能计数器事件更改为“指令已停用”或“CPU 周期未停止”之类的内容,您将能够看到此操作在您的软件环境中包含多少开销。详细信息将取决于您的操作系统版本,但我预计开销将达到数百条指令/数千个周期,因为读取 perf_events 中的计数器(由 PAPI 使用)所需的内核交叉。代码路径肯定会包含它自己的分支。
如果您的内核支持“用户模式 RDPMC”(CR4.PCE=1),您可以使用一条指令读取性能计数器。示例可在 https://github.com/jdmccalpin/low-overhead-timers 中找到.
即使将测量代码限制为本地 RDPMC 指令(以及用于保存结果的周围代码),测量也会破坏处理器管道。 RDPMC 是微编码指令。在 Ryzen 内核上,指令执行 20 个微操作,每 20 个周期具有一条指令的吞吐量。 (引用: https://www.agner.org/optimize/instruction_tables.pdf )
任何细粒度的测量都是具有挑战性的,因为现代处理器的乱序功能与用户代码交互的方式记录不足且难以预测。有关此主题的更多说明(也与 AMD 处理器相关)位于 http://sites.utexas.edu/jdm4372/2018/07/23/comments-on-timing-short-code-sections-on-intel-processors/
关于c - 使用 rdmsr/rdpmc 提高分支预测精度,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60265006/
执行 rdmsr 所需的时间吗?很大程度上依赖于寄存器读取? 最佳答案 是的,时间在很大程度上取决于寄存器。以下是一些示例(在英特尔酷睿 i7-8700K 上测量): 读取寄存器 E8H (IA32_
我试图了解分支预测单元如何在 CPU 中工作。 我用过 papi还有 linux 的 perf-events但他们都没有给出准确的结果(就我而言)。 这是我的代码: void func(int* ar
我想使用 root 权限直接从 C 代码读取 msr 0x19a (IA32_CLOCK_MODULATIOn)。但是,我收到以下段错误。 a.out[27843] general protectio
从intel software developer manual 3b,我了解到MSR(10H)等于RDTSC。所以我想在我的程序中使用如下代码验证它: asm volatile("rdmsr":"=
我需要控制 C 状态配置。具体来说,我可能想执行以下 asm 代码: __asm { rdmsr and eax, 0x00 or eax, 0x01 wrmsr
我是一名优秀的程序员,十分优秀!