C++:对抗多态开销-6ren

C++:对抗多态开销

转载作者：可可西里更新时间：2023-11-01 17:39:46

25

4

我知道多态性会增加明显的开销。调用虚函数比调用非虚函数慢。 (我所有的经验都是关于 GCC，但我认为/听说这对任何真正的编译器都是如此。)

很多时候，一个给定的虚函数在同一个对象上被一遍又一遍地调用；我知道对象类型不会改变，而且大多数时候编译器可以很容易地推断出:

BaseType &obj = ...;
while( looping )
    obj.f(); // BaseType::f is virtual

为了加快代码速度，我可以像这样重写上面的代码:

BaseType &obj = ...;
FinalType &fo = dynamic_cast< FinalType& >( obj );
while( looping )
    fo.f(); // FinalType::f is not virtual

我想知道在这些情况下避免由于多态性导致的这种开销的最佳方法是什么。

upper-casting 的想法(如第二个片段所示)对我来说看起来不太好:BaseType 可以被许多类继承，并尝试对所有类进行 upper-cast它们会非常冗长。

另一个想法可能是将 obj.f 存储在一个函数指针中(没有测试这个，不确定它是否会消除运行时开销)，但是这个方法看起来并不像完美:和上面的方法一样，它需要写更多的代码并且不能利用一些优化(例如:如果 FinalType::f 是一个内联函数，它不会得到内联——但我想避免这种情况的唯一方法是将 obj 向上转换为其最终类型...)

那么，有没有更好的方法呢？

编辑:好吧，当然这不会影响那么大。这个问题主要是想知道是否有什么事情要做，因为看起来这个开销是免费的(这个开销看起来很容易杀死)我不明白为什么不这样做。

一个简单的小优化关键字，比如 C99 restrict，告诉编译器多态对象是固定类型是我所希望的。

无论如何，只是为了回复评论，存在一点开销。看看这个特别的极端代码:

struct Base { virtual void f(){} };
struct Final : public Base { void f(){} };

int main( ) {
    Final final;
    Final &f = final;
    Base &b = f;

    for( int i = 0; i < 1024*1024*1024; ++ i )
#ifdef BASE
        b.f( );
#else
        f.f( );
#endif

    return 0;
}

编译和运行它，需要时间:

$ for OPT in {"",-O0,-O1,-O2,-O3,-Os}; do
    for DEF in {BASE,FINAL}; do
        g++ $OPT -D$DEF -o virt virt.cpp &&
        TIME="$DEF $OPT: %U" time ./virt;
    done;
  done           
BASE : 5.19                                                                                                                                                                         
FINAL : 4.21                                                                                                                                                                        
BASE -O0: 5.22                                                                                                                                                                      
FINAL -O0: 4.19                                                                                                                                                                     
BASE -O1: 3.55                                                                                                                                                                      
FINAL -O1: 1.53                                                                                                                                                                     
BASE -O2: 3.61                                                                                                                                                                      
FINAL -O2: 0.00                                                                                                                                                                     
BASE -O3: 3.58                                                                                                                                                                      
FINAL -O3: 0.00                                                                                                                                                                     
BASE -Os: 6.14                                                                                                                                                                      
FINAL -Os: 0.00

我猜只有 -O2、-O3 和 -Os 是内联 Final::f。

这些测试已在我的机器上运行，运行最新的 GCC 和 AMD Athlon(tm) 64 X2 双核处理器 4000+ CPU。我想在更便宜的平台上它可能会慢很多。

最佳答案

如果动态调度是您程序中的性能瓶颈，那么解决问题的方法就是不使用动态调度(不要使用虚函数)。

您可以通过使用模板和泛型编程代替虚函数，用编译时多态性替换一些运行时多态性。这可能会或可能不会导致更好的性能；只有剖析器才能确定地告诉您。

但需要明确的是，正如 wilhelmtell 已经在对该问题的评论中指出的那样，动态调度引起的开销很少会大到足以让人担心的地步。在用笨拙的自定义实现替换内置的便利性之前，请绝对确保它是您的性能热点。

关于C++:对抗多态开销，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/4111563/

25

4

0

文章推荐： c++ - Dll内存管理

文章推荐： c++ - 关于序列点的解释

文章推荐： c++ - set_terminate 函数对我不起作用

文章推荐： iphone - 为 C++ 库制作 Objective-C 包装器

WebRTC 开销
我想知道，通过数据 channel 发送数据时 WebRTC 会产生多少开销。我知道 Websockets 每帧有 2 - 14 字节的开销。 WebRTC 是否使用更多开销？我在网上找不到一些有用
与类和对象相关的 JavaScript 开销
我想知道与创建新类而不是该类的新对象相关的开销是小还是大。我正在使用 dojo，但我将提供纯 JS 的示例。我将在启动时创建 10 到 100 个对象，我认为这不会是一个严重的问题，但我想涵盖所有基础
MySQL 开销，是我的查询错误还是应该优化表？
我有一个如下所示的表设置。 Table comment_flags user_id comment_id 我允许用户标记评论，然后给他们取消标记的选项，因为他们可能犯了一个错误。问题
Mysql phpmyadmin 开销
这个问题已经有答案了: 已关闭10 年前。 Possible Duplicate: In MySQL what does “Overhead” mean, what is bad about it,
重复分配的 JavaScript 开销
我正在制作一个非常简单的游戏，只是为了好玩/练习，但无论它现在有多简单，我仍然想很好地编写它，以防我想回到它并只是为了学习因此，在这种情况下，我的问题是: 对象分配涉及多少开销？解释器对此的优化程度
c# - 传递结构是否比传递其成员占用更多的内存/开销？
我有一些资源敏感的东西要写。我想知道与仅将这些变量一起传递(例如作为函数参数)相比，在结构中将变量组合在一起是否真的会导致内存开销。如果是这样，那么在不产生开销的情况下创建对惰性值进行操作的东西的好
Python:OOP 开销？
我一直在开发一个实时应用程序，并注意到一些 OOP 设计模式在 Python 中引入了难以置信的开销(使用 2.7.5 进行了测试)。直截了当，当字典被另一个对象封装时，为什么简单的字典值访问器方法
字符串连接的 C++ 开销
我正在从 ifstream 中读取随机 ascii 文本文件。我需要能够将整个消息放入字符串类型以进行字符解析。我当前的解决方案有效，但我认为我通过使用等效于此的方式来谋杀更冗长文件的处理时间: st
android - getActivity() 开销
纯粹从软件工程的角度来看，getActivity() 有多少开销？我在整个应用程序中经常多次使用此方法，并考虑使用一个引用 getActivity() 的全局变量。如果为 Activity 设置一
recursion - F# 递归与迭代速度/开销
我一直在研究 Riccardo Terrell 的 Akka.NET 分形演示 (https://github.com/rikace/akkafractal) 以尝试理解它。 (这很棒，顺便说一句)
performance - 高分辨率计时器/代码运行时间-> 开销？
我正在尝试使用高分辨率计时器查找我的代码运行时间，我注意到计时器的结果不一致，我想知道为什么会这样。我找到了这篇文章 How do you test running time of VBA code
WPF 绑定(bind)开销
我正在学习WPF。我现在开始装订了。使用 INotifyPropertyChanged 时绑定(bind)是否依赖反射？是这样，价格是多少？我正在考虑使用 WPF 来显示通过 UDP 流式传输的数据，
C++ 静态成员函数与 lambda 开销
我有某种模板化基类 template class Base { }; 并希望将其派生实例存储在列表中。为此，我使用 using derived_handle = std::unique_ptr v
haskell - GHC TypeLit 开销
使用GHC.TypeLits中的Sing有任何开销吗？？以程序为例: {-# LANGUAGE DataKinds #-} module Test (test) where import GHC.T
C++ 静态成员函数与 lambda 开销
我有某种模板化基类 template class Base { }; 并希望将其派生实例存储在列表中。为此，我使用 using derived_handle = std::unique_ptr v
python - 如何跳过结果中的 ORM 开销？
我有一个 ORM sqlalchemy 模型，我需要构建一个查询(使用 ORM 类更容易构建)，但这需要大量时间。当我直接像 SQL 一样向数据库执行相同的查询时，速度相当快。使用 SQLAlche
php - MySQL 开销 - 如何调整服务器以加速不良查询
我在 PHP 平台上有一家商店(开发不善)，那里有很多不好的查询(没有索引的长查询、rand() 排序、动态计数，..) 我现在无法更改查询，但我必须调整服务器才能保持事件状态。我尝试了我所知道的一
php - 本地服务器上的 MySQL 开销
我有一个使用 JQuery mobile 构建的移动应用程序，响应时间对我来说非常重要，因为我希望为我的用户提供流畅的体验。我刚刚将网站的安装移至本地服务器，以提高应用程序的性能，因为它连接到本地
mysql - 列的 SQL 开销
关于数据库设计的问题。如果我有 28 个 bool 值并且能够将它们添加为每行 28 个 bool 值或一个整数，哪一个会更快？哪种方法将使磁盘上的表大小保持最低？这是在假设我需要的可以通过查询中的
c++ - 接口(interface)开销
我有一个看起来像 Boost.Array 的简单类。有两个模板参数 T 和 N。Boost.Array 的一个缺点是，每个使用这种数组的方法都必须是带有参数 N 的模板(T 可以)。结果是整个程序往往

首页

博学

6Ren·AI

商城

C++:对抗多态开销