c++ - 创建模板函数的每个实例时，模板函数 typedef 说明符是否会被正确内联？-6ren

c++ - 创建模板函数的每个实例时，模板函数 typedef 说明符是否会被正确内联？

转载作者：行者123 更新时间：2023-11-30 03:24:15

25

4

制作了同时对多个数据流进行操作的函数，创建输出结果并将其放入目标流。已投入大量时间来优化此功能的性能(openmp、内在函数等)。它表现得很漂亮。这里涉及很多数学，不用说很长的函数。

现在我想在同一个函数中实现每个实例的数学替换代码，而不用编写这个函数的每个版本。我只想使用#defines 或内联函数来区分此函数的不同实例(代码必须在每个版本中内联)。

寻求模板，但模板只允许类型说明符，并意识到不能在此处使用#defines。剩下的解决方案是内联数学函数，所以简化的想法是创建这样的标题:

'alm_quasimodo.h':

#pragma once

typedef struct ALM_DATA
{
  int l, t, r, b;
  int scan;
  BYTE* data;  
} ALM_DATA;

typedef BYTE (*MATH_FX)(BYTE&, BYTE&);
// etc

inline BYTE math_a1(BYTE& A, BYTE& B){ return ((BYTE)((B > A) ? B:A)); }
inline BYTE math_a2(BYTE& A, BYTE& B){ return ((BYTE)(255 - ((long)((long)(255 - A) * (255 - B)) >> 8))); }
inline BYTE math_a3(BYTE& A, BYTE& B){ return ((BYTE)((B < 128)?(2*(((long)A>>1)+64))*((float)B/255):(255-(2*(255-(((long)A>>1)+64))*(float)(255-B)/255)))); }
// etc

template <typename MATH>
inline int const template_math_av (MATH math, ALM_DATA& a, ALM_DATA& b) 
{ 
  // ultra simplified version of very complex code
  for (int y = a.t; y <= a.b; y++)
  {
    int yoffset = y * a.scan;
    for (int x = a.l; x <= a.r; x++)
    {
      int xoffset = yoffset + x;
      a.data[xoffset] = math(a.data[xoffset], b.data[xoffset]);
    }
  }
  return 0;
}

ALM_API int math_caller(int condition, ALM_DATA& a, ALM_DATA& b);

而 math_caller 在'alm_quasimodo.cpp'中定义如下:

#include "stdafx.h"
#include "alm_quazimodo.h"

ALM_API int math_caller(int condition, ALM_DATA& a, ALM_DATA& b)
{
  switch(condition)
  {
    case 1: return template_math_av<MATH_FX>(math_a1, a, b);
      break;
    case 2: return template_math_av<MATH_FX>(math_a2, a, b);
      break;
    case 3: return template_math_av<MATH_FX>(math_a3, a, b);
      break;
    // etc
  }
  return -1;
}

这里主要关注的是优化，主要是 MATH 函数代码的内联，而不是破坏原始代码的现有优化。当然，无需为特定的数学运算编写每个函数实例；)

那么这个模板是否正确地内联了所有数学函数？以及如何优化此功能模板的任何建议？

如果没有，感谢您阅读这个冗长的问题。

最佳答案

这完全取决于您的编译器、优化级别以及 math_a1 到 math_a3 函数的定义方式和位置。通常，如果所讨论的函数是与其余代码相同的编译单元中的内联函数，则编译器可以对此进行优化。如果您没有遇到这种情况，您可能需要考虑仿函数而不是函数。

Here是我试验过的一些简单例子。您可以对您的函数执行相同的操作，并检查不同编译器的行为。

以我的示例为例，GCC 7.3 和 clang 6.0 在优化函数调用方面相当出色(当然前提是它们能看到函数的定义)。然而，有些令人惊讶的是，ICC 18.0.0 只能优化仿函数和闭包。即使是内联函数也会给它带来一些麻烦。

只是为了在此处添加一些代码，以防将来链接停止工作。对于以下代码:

template <typename T, int size, typename Closure>
T accumulate(T (&array)[size], T init, Closure closure) {
    for (int i = 0; i < size; ++i) {
        init = closure(init, array[i]);
    }
    return init;
}

int sum(int x, int y) { return x + y; }
inline int sub_inline(int x, int y) { return x - y; }
struct mul_functor {
    int operator ()(int x, int y) const  { return x * y; }
};
extern int extern_operation(int x, int y);

int accumulate_function(int (&array)[5]) {
    return accumulate(array, 0, sum);
}
int accumulate_inline(int (&array)[5]) {
    return accumulate(array, 0, sub_inline);
}
int accumulate_functor(int (&array)[5]) {
    return accumulate(array, 1, mul_functor());
}
int accumulate_closure(int (&array)[5]) {
    return accumulate(array, 0, [](int x, int y) { return x | y; });
}
int accumulate_exetern(int (&array)[5]) {
    return accumulate(array, 0, extern_operation);
}

GCC 7.3 (x86) 生成以下程序集:

sum(int, int):
        lea     eax, [rdi+rsi]
        ret
accumulate_function(int (&) [5]):
        mov     eax, DWORD PTR [rdi+4]
        add     eax, DWORD PTR [rdi]
        add     eax, DWORD PTR [rdi+8]
        add     eax, DWORD PTR [rdi+12]
        add     eax, DWORD PTR [rdi+16]
        ret
accumulate_inline(int (&) [5]):
        mov     eax, DWORD PTR [rdi]
        neg     eax
        sub     eax, DWORD PTR [rdi+4]
        sub     eax, DWORD PTR [rdi+8]
        sub     eax, DWORD PTR [rdi+12]
        sub     eax, DWORD PTR [rdi+16]
        ret
accumulate_functor(int (&) [5]):
        mov     eax, DWORD PTR [rdi]
        imul    eax, DWORD PTR [rdi+4]
        imul    eax, DWORD PTR [rdi+8]
        imul    eax, DWORD PTR [rdi+12]
        imul    eax, DWORD PTR [rdi+16]
        ret
accumulate_closure(int (&) [5]):
        mov     eax, DWORD PTR [rdi+4]
        or      eax, DWORD PTR [rdi+8]
        or      eax, DWORD PTR [rdi+12]
        or      eax, DWORD PTR [rdi]
        or      eax, DWORD PTR [rdi+16]
        ret
accumulate_exetern(int (&) [5]):
        push    rbp
        push    rbx
        lea     rbp, [rdi+20]
        mov     rbx, rdi
        xor     eax, eax
        sub     rsp, 8
.L8:
        mov     esi, DWORD PTR [rbx]
        mov     edi, eax
        add     rbx, 4
        call    extern_operation(int, int)
        cmp     rbx, rbp
        jne     .L8
        add     rsp, 8
        pop     rbx
        pop     rbp
        ret

关于c++ - 创建模板函数的每个实例时，模板函数 typedef 说明符是否会被正确内联？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/49830244/

25

4

0

文章推荐： AndroidAnnotations + SherlockFragmentActivity - 找不到 fragment 类

文章推荐： C++通过内存地址将多维数组更改为一维数组

文章推荐： java - 为什么标签不显示在框架中？

文章推荐： java - 使用 JSoup 通过 SSO 访问站点

QTCreator 的集成表单编辑器不会加载自定义小部件插件(Designer 会)
尝试使用集成到 QTCreator 的表单编辑器，但即使我将插件放入 QtCreator.app/Contents/MacOS/designer 也不会显示。不过，相同的 dylib 文件确实适用于独
java - 会 this.method2();跳过返回值？
在此代码示例中。 “this.method2();”之后会读到什么？在返回returnedValue之前会跳转到method2()吗？ public int method1(int returnedV
java - Gradle 不会解析依赖关系(Maven 会)
我的项目有通过gradle配置的依赖项。我想添加以下依赖项: compile group: 'org.restlet.jse', name: 'org.restlet.ext.apispark', v
polymer - polymer 会 build 更多现成可用的组件吗？
我将把我们基于 Windows 的客户管理软件移植到基于 Web 的软件。我发现 polymer 可能是一种选择。但是，对于我们的使用，我们找不到 polymer 组件具有表格 View 、下拉菜单
java - 从项目文件夹中读取文件，eclipse 会，但终端不会
我的项目文件夹 Project 中有一个文件夹，比如 ED 文件夹，当我在 Eclipse 中指定在哪里查找我写入的文件时 File file = new File("ED/text.txt"); e
javascript - jQuery 动画背景位置不会改变但 css 会
这是奇怪的事情，这个有效: $('#box').css({"backgroundPosition": "0px 250px"}); 但这不起作用，它只是不改变位置: $('#box').animate
javascript - 为什么按位运算符 OR 会 chop 此示例中的值？
这个问题在这里已经有了答案: Why does OR 0 round numbers in Javascript? (3 个答案) 关闭 5 年前。 Mozilla JavaScript Guide
c - strcmpi 代码不会编译但 strcmp 会？
这个问题在这里已经有了答案: Is the function strcmpi in the C standard libary of ISO? (3 个答案) 关闭 8 年前。我有一个问题，为什么
mysql - MySQL 会/是否支持 DATETIMEOFFSET？
我目前使用的是共享主机方案，我不确定它使用的是哪个版本的 MySQL，但它似乎不支持 DATETIMEOFFSET 类型。是否存在支持 DATETIMEOFFSET 的 MySQL 版本？或者有计划
java - CDI 会(或应该)提供包限定符吗？
研究 Seam 3，我发现 Seam Solder 允许将 @Named 注释应用于包 - 在这种情况下，该包中的所有 bean 都将自动命名，就好像它们符合条件一样@Named 他们自己。我没有看到
arrays - `removeLast` 会 swift 减少数组的容量吗？
我知道 .append 偶尔会增加数组的容量并形成数组的新副本，但 .removeLast 会逆转这种情况并减少容量通过复制到一个新的更小的数组来改变数组？最佳答案否(或者至少如果是，则它是一个错
ruby - Ruby 会*快*吗？
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开，visit the help center . 关闭 1
c++ - noexcept 会 boost 性能吗？
noexcept 函数说明符是否旨在 boost 性能，因为生成的对象中可能没有记录异常的代码，因此应尽可能将其添加到函数声明和定义中？我首先想到了可调用对象的包装器，其中 noexcept 可能会产
Angularjs Promise.all 不会更新范围，而 $q.all 会
我正在使用 Angularjs 1.3.7，刚刚发现 Promise.all 在成功响应后不会更新 angularjs View ，而 $q.all 会。由于 Promises 包含在 native
javascript - 为什么移动 0 会 chop 小数？
我最近发现了这段JavaScript代码: Math.random() * 0x1000000 10.12345 10.12345 >> 0 10 > 10.12345 >>> 0 10 我使用
haskell - 为什么 Haskell 会(显然)不一致地推断出特定类型？
我正在编写一个玩具(物理)矢量库，并且遇到了 GHC 坚持认为函数应该具有 Integer 的问题。是他们的类型。我希望向量乘以向量以及标量(仅使用 * )，虽然这可以通过仅使用 Vector 来实现
email - Swiftmailer 不会发送邮件，但是 mail() 会
PHP 的 mail() 函数发送邮件正常，但 Swiftmailer 的 Swift_MailTransport 不起作用! 这有效: mail('user@example.com', 'test
PHP 脚本不会转储 SQL 但 phpMyAdmin 会
我尝试通过 php 脚本转储我的数据，但没有命令行。所以我用 this script 创建了我的 .sql 文件然后我尝试使用我的脚本: $link = mysql_connect($host, $u
python sqlite3 不会执行连接，但单独的 sqlite3 会
使用 python 2.6.4 中的 sqlite3 标准库，以下查询在 sqlite3 命令行上运行良好: select segmentid, node_t, start, number,title
javascript - 为什么移动 0 会 chop 小数？
我最近发现了这段JavaScript代码: Math.random() * 0x1000000 10.12345 10.12345 >> 0 10 > 10.12345 >>> 0 10 我使用

首页

博学

6Ren·AI

商城

c++ - 创建模板函数的每个实例时，模板函数 typedef 说明符是否会被正确内联？