- mongodb - 在 MongoDB mapreduce 中,如何展平值对象?
- javascript - 对象传播与 Object.assign
- html - 输入类型 ="submit"Vs 按钮标签它们可以互换吗?
- sql - 使用 MongoDB 而不是 MS SQL Server 的优缺点
我有以下两个文件:-
single.cpp :-
#include <iostream>
#include <stdlib.h>
using namespace std;
unsigned long a=0;
class A {
public:
virtual int f() __attribute__ ((noinline)) { return a; }
};
class B : public A {
public:
virtual int f() __attribute__ ((noinline)) { return a; }
void g() __attribute__ ((noinline)) { return; }
};
int main() {
cin>>a;
A* obj;
if (a>3)
obj = new B();
else
obj = new A();
unsigned long result=0;
for (int i=0; i<65535; i++) {
for (int j=0; j<65535; j++) {
result+=obj->f();
}
}
cout<<result<<"\n";
}
还有
multiple.cpp :-
#include <iostream>
#include <stdlib.h>
using namespace std;
unsigned long a=0;
class A {
public:
virtual int f() __attribute__ ((noinline)) { return a; }
};
class dummy {
public:
virtual void g() __attribute__ ((noinline)) { return; }
};
class B : public A, public dummy {
public:
virtual int f() __attribute__ ((noinline)) { return a; }
virtual void g() __attribute__ ((noinline)) { return; }
};
int main() {
cin>>a;
A* obj;
if (a>3)
obj = new B();
else
obj = new A();
unsigned long result=0;
for (int i=0; i<65535; i++) {
for (int j=0; j<65535; j++) {
result+=obj->f();
}
}
cout<<result<<"\n";
}
我正在使用带有标志 -O2 的 gcc 版本 3.4.6
这是我得到的计时结果:-
多个:-
real 0m8.635s
user 0m8.608s
sys 0m0.003s
单人:-
real 0m10.072s
user 0m10.045s
sys 0m0.001s
另一方面,如果在 multiple.cpp 中,我会颠倒类派生的顺序:-
class B : public dummy, public A {
然后我得到以下时间(由于代码需要对 this 指针进行“thunk”调整,这比单继承要慢一些):-
real 0m11.516s
user 0m11.479s
sys 0m0.002s
知道为什么会发生这种情况吗?就循环而言,为所有三种情况生成的程序集似乎没有任何区别。我还有其他地方需要看吗?
此外,我已将进程绑定(bind)到特定的 cpu 内核,并使用 SCHED_RR 以实时优先级运行它。
编辑:- 这被 Mysticial 注意到并由我复制。做一个
cout << "vtable: " << *(void**)obj << endl;
就在 single.cpp 中的循环导致 single 也像 public A、public dummy 一样在 8.4 s 时与多个时钟一样快。
最佳答案
请注意,这个答案是高度推测性的。
与我对“为什么 X 比 Y 慢”类型的问题的其他一些答案不同,我无法提供确凿的证据来支持这个答案。
经过大约一个小时的修改,我认为这是由于三件事的地址对齐:
obj
的地址A
f()
(owagh's answer 也暗示了指令对齐的可能性。)
多重继承比单继承慢的原因不是因为它“神奇地”快,而是因为单继承情况正在运行到编译器或硬件“打嗝”。
如果您为单继承和多继承情况转储程序集,它们在嵌套循环中是相同的(寄存器名称和所有内容)。
这是我编译的代码:
#include <iostream>
#include <stdlib.h>
#include <time.h>
using namespace std;
unsigned long a=0;
#ifdef SINGLE
class A {
public:
virtual int f() { return a; }
};
class B : public A {
public:
virtual int f() { return a; }
void g() { return; }
};
#endif
#ifdef MULTIPLE
class A {
public:
virtual int f() { return a; }
};
class dummy {
public:
virtual void g() { return; }
};
class B : public A, public dummy {
public:
virtual int f() { return a; }
virtual void g() { return; }
};
#endif
int main() {
cin >> a;
A* obj;
if (a > 3)
obj = new B();
else
obj = new A();
unsigned long result = 0;
clock_t time0 = clock();
for (int i=0; i<65535; i++) {
for (int j=0; j<65535; j++) {
result += obj->f();
}
}
clock_t time1 = clock();
cout << (double)(time1 - time0) / CLOCKS_PER_SEC << endl;
cout << result << "\n";
system("pause"); // This is useless in Linux, but I left it here for a reason.
}
嵌套循环的程序集在单继承和多继承情况下是相同的:
.L5:
call clock
movl $65535, %r13d
movq %rax, %r14
xorl %r12d, %r12d
.p2align 4,,10
.p2align 3
.L6:
movl $65535, %ebx
.p2align 4,,10
.p2align 3
.L7:
movq 0(%rbp), %rax
movq %rbp, %rdi
call *(%rax)
cltq
addq %rax, %r12
subl $1, %ebx
jne .L7
subl $1, %r13d
jne .L6
call clock
但我看到的性能差异是:
至强 X5482、Ubuntu、GCC 4.6.1 x64。
这使我得出结论,差异必须取决于数据。
如果您查看该程序集,您会注意到唯一可能具有可变延迟的指令是负载:
; %rbp = vtable
movq 0(%rbp), %rax ; Dereference function pointer from vtable
movq %rbp, %rdi
call *(%rax) ; Call function pointer - f()
随后在调用 f()
内进行了几次内存访问。
恰好在单继承示例中,上述值的偏移量对处理器不利。我不知道为什么。
但我不得不怀疑一些事情,它会以类似于
region 2 in the diagram of this question 的方式发生缓存库冲突。 .
通过重新排列代码和添加虚拟函数,我可以更改这些偏移量 - 在很多情况下,这将消除这种减速并使单继承与多继承情况一样快。
例如,去掉 system("pause")
会使时间倒转:
#ifdef SINGLE
class A {
public:
virtual int f() { return a; }
};
class B : public A {
public:
virtual int f() { return a; }
void g() { return; }
};
#endif
#ifdef MULTIPLE
class A {
public:
virtual int f() { return a; }
};
class dummy {
public:
virtual void g() { return; }
};
class B : public A, public dummy {
public:
virtual int f() { return a; }
virtual void g() { return; }
};
#endif
int main() {
cin >> a;
A* obj;
if (a > 3)
obj = new B();
else
obj = new A();
unsigned long result = 0;
clock_t time0 = clock();
for (int i=0; i<65535; i++) {
for (int j=0; j<65535; j++) {
result += obj->f();
}
}
clock_t time1 = clock();
cout << (double)(time1 - time0) / CLOCKS_PER_SEC << endl;
cout << result << "\n";
// system("pause");
}
关于c++ - 为什么我观察到多重继承比单一继承要快?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10439094/
这看起来很基础,但我想不通。是否有一种简单的 CSS 唯一方法可以使 cssa 真正快速淡入并缓慢淡出。这是为了改变多个 div 的颜色。大约 0.5 秒的缓入和 2 秒的缓出。 谢谢! 最佳答案 你
我一直在用各种语言和实现实现相同的代码(在 Blackjack 中发牌而不爆牌的方法的数量)。我注意到的一个奇怪之处是,Python 在 C 中调用分区函数的实现实际上比用 C 编写的整个程序快一点。
如果我没看错,/ 意味着它右边的节点必须是左边节点的直接子节点,例如/ul/li 返回 li 项,它们是作为文档根的 ul 项的直接子项。 //ul//li 返回 li 项,它们是文档中某处任何 ul
如何随机更新一个表。所以你给一列一个随机值。并且该列(例如“顶部”)是唯一的。如果您在数字 10 到 20 之间进行选择,并且您有 10 行,那么您就不能有未使用的数字。如果你有 Test table
这在一小部分是一个问题(因为我不明白为什么它会有所不同),在很大程度上是一篇希望能帮助其他一些可怜的程序员的帖子。 我有一个代码库,是我大约 5-7 年前第一次开始 Android 编程时编写的,它具
我正在尝试过滤关系表以获得满足两个条件的表子集(即:我想要 color_ids 为 1 或 2 的条目的所有 ID)。这是一张结实的 table ,所以我正在尝试尽可能多地进行优化。 我想知道是否有人
在上一篇《聊聊PHP中require_once()函数为什么不好用》中给大家介绍了PHP中require_once()为什么不好用的原因,感兴趣的朋友可以去阅读了解一下~ 那么本文将给大家介绍PH
很难说出这里问的是什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或言辞激烈,无法以目前的形式合理回答。如需帮助澄清此问题以便可以重新打开,visit the help center . 10年前关
有没有办法提高glReadPixels的速度?目前我做: Gdx.gl.glReadPixels(0, 0, Gdx.graphics.getWidth(), Gdx.graphics.getHeig
通常,我以函数形式`:=`()来计算data.table中的多列,认为这是最有效的方法。但是我最近发现它比简单地重复使用:=慢。至少在我的电脑上。 我猜想:=的功能形式可能会产生一些开销,但这是它变慢
我的问题是针对 Windows 环境中多线程的性能问题。 在测试我的代码后,我得到的结果是增加线程数不会提高并行计算的性能,并且在经过一些计数后变得更少。到底是怎么回事?是否可以找出最佳线程数的公式:
我看到很少有相同问题的主题,但我仍然无法解决我的问题。这是我的代码 - 使用 XOR 加密的 C 套接字编程 当服务器和客户端连接时:- 用户发送消息,例如:你好- 服务器响应,例如:(服务器):你好
我正在定义继承自 Shape 类并实现“几何”属性的形状。 这是一个例子: public class Landmark : Shape { public override bool IsInB
相同代码在 Android(1Ghz Snapdragon)上的执行速度比我在 3.3 Ghz Core 2 Duo 的 PC(在桌面应用程序中)快 2 倍(PC 的类被复制到 Android 项目)
我需要将一个值与一组数组进行比较。但是,我需要比较 foreach 中的多个值。如果使用 in_array,它可能会很慢,真的很慢。有没有更快的选择?我当前的代码是 foreach($a as $b)
这个问题在这里已经有了答案: How do I write a correct micro-benchmark in Java? (11 个答案) 关闭 9 年前。 今天我做了一个简单的测试来比较
如果比较不应该以这种方式进行,我深表歉意。我是编程新手,只是很好奇为什么会这样。 我有一个包含词嵌入的大型二进制文件 (4.5gb)。每行都有一个单词,后面跟着它的嵌入,它由 300 个浮点值组成。我
我经历了几个不同的四元数乘法实现,但我很惊讶地发现引用实现是迄今为止我最快的实现。这是有问题的实现: inline static quat multiply(const quat& lhs, cons
我写了一个简单的例子,估计调用虚函数的平均时间,使用基类接口(interface)和dynamic_cast和调用非虚函数。这是它: #include #include #include #in
有没有人知道比“StackWalk”更好/更快的获取调用堆栈的方法?我还认为 stackwalk 在有很多变量的方法上也会变慢......(我想知道商业分析员是做什么的?)我在 Windows 上使用
我是一名优秀的程序员,十分优秀!