c++ - 寻找加速功能的方法-6ren

c++ - 寻找加速功能的方法

转载作者：塔克拉玛干更新时间：2023-11-03 07:02:32

27

4

我试图加速跨多个文件的一大块代码，发现一个函数使用了大约 70% 的总时间。这是因为这个函数被调用了 477+ 百万次。

指针数组par只能是两个预设之一

par[0] = 0.057;
par[1] = 2.87;
par[2] = -3.;
par[3] = -0.03;
par[4] = -3.05;
par[5] = -3.5; 

OR

par[0] = 0.043;
par[1] = 2.92;
par[2] = -3.21;
par[3]= -0.065;
par[4] = -3.00;
par[5] = -2.65;

所以我尝试根据它是哪个预设插入数字，但未能找到任何显着的时间节省。

pow 和exp 函数似乎每次都会被调用，它们分别占总时间的 40% 和 20%，所以只有 10%此函数中不是 pow 或 exp 的部分使用总时间。找到加快速度的方法可能是最好的，但是 pow 中使用的指数都不是整数，除了 -4 我不知道 1/(x*x*x*x) 比 pow(x, -4) 快。

double Signal::Param_RE_Tterm_approx(double Tterm, double *par) {

    double value = 0.;

    // time after Che angle peak
    if (Tterm > 0.) {

        if ( fabs(Tterm/ *par) >= 1.e-2) {
            value += -1./(*par)*exp(-1.*Tterm/(*par));

        }
        else {
            value += -1./par[0]*(1. - Tterm/par[0] + Tterm*Tterm/(par[0]*par[0]*2.) - Tterm*Tterm*Tterm/(par[0]*par[0]*par[0]*6.) );
        }

        if ( fabs(Tterm* *(par+1)) >= 1.e-2) {
            value += *(par+2)* *(par+1)*pow( 1.+*(par+1)*Tterm, *(par+2)-1. );

        }
        else {
            value += par[2]*par[1]*( 1.+(par[2]-1.)*par[1]*Tterm + (par[2]-1.)*(par[2]-1.-1.)/2.*par[1]*par[1]*Tterm*Tterm + (par[2]-1.)*(par[2]-1.-1.)*(par[2]-1.-2.)/6.*par[1]*par[1]*par[1]*Tterm*Tterm*Tterm );
        }

    }

    // time before Che angle peak
    else {

        if ( fabs(Tterm/ *(par+3)) >= 1.e-2 ) {
            value += -1./ *(par+3) *exp(-1.*Tterm/ *(par+3));

        }
        else {
             value += -1./par[3]*(1. - Tterm/par[3] + Tterm*Tterm/(par[3]*par[3]*2.) - Tterm*Tterm*Tterm/(par[3]*par[3]*par[3]*6.) );
        }

        if ( fabs(Tterm* *(par+4) >= 1.e-2 ) {
            value += *(par+5)* *(par+4) *pow( 1.+ *(par+4)*Tterm, *(par+5)-1. );

        }
        else {
             value += par[5]*par[4]*( 1.+(par[5]-1.)*par[4]*Tterm + (par[5]-1.)*(par[5]-1.-1.)/2.*par[4]*par[4]*Tterm*Tterm + (par[5]-1.)*(par[5]-1.-1.)*(par[5]-1.-2.)/6.*par[4]*par[4]*par[4]*Tterm*Tterm*Tterm );
        }
    }

    return value * 1.e9;

}

最佳答案

我首先重写了它以便更容易理解:

#include <math.h> 

double Param_RE_Tterm_approx(double Tterm, double const* par) {
  double value = 0.;

  if (Tterm > 0.) {
    // time after Che angle peak

    if ( fabs(Tterm/ par[0]) >= 1.e-2) {
      value += -1./(par[0])*exp(-1.*Tterm/(par[0]));
    } else {
      value += -1./par[0]*(1. - Tterm/par[0] + Tterm*Tterm/(par[0]*par[0]*2.) - Tterm*Tterm*Tterm/(par[0]*par[0]*par[0]*6.) );
    }

    if ( fabs(Tterm* par[1]) >= 1.e-2) {
      value += par[2]* par[1]*pow( 1.+par[1]*Tterm, par[2]-1. );
    } else {
      value += par[2]*par[1]*( 1.+(par[2]-1.)*par[1]*Tterm + (par[2]-1.)*(par[2]-1.-1.)/2.*par[1]*par[1]*Tterm*Tterm + (par[2]-1.)*(par[2]-1.-1.)*(par[2]-1.-2.)/6.*par[1]*par[1]*par[1]*Tterm*Tterm*Tterm );
    }

  } else {
    // time before Che angle peak

    if ( fabs(Tterm/ par[3]) >= 1.e-2 ) {
      value += -1./ par[3] *exp(-1.*Tterm/ par[3]);
    } else {
       value += -1./par[3]*(1. - Tterm/par[3] + Tterm*Tterm/(par[3]*par[3]*2.) - Tterm*Tterm*Tterm/(par[3]*par[3]*par[3]*6.) );
    }

    if ( fabs(Tterm* par[4]) >= 1.e-2 ) {
      value += par[5]* par[4] *pow( 1.+ par[4]*Tterm, par[5]-1. );

    } else {
       value += par[5]*par[4]*( 1.+(par[5]-1.)*par[4]*Tterm + (par[5]-1.)*(par[5]-1.-1.)/2.*par[4]*par[4]*Tterm*Tterm + (par[5]-1.)*(par[5]-1.-1.)*(par[5]-1.-2.)/6.*par[4]*par[4]*par[4]*Tterm*Tterm*Tterm );
    }
  }

  return value * 1.e9;
}

然后我们可以看看它的结构。

有两个主要分支——Tterm 负(之前)和正(之后)。这些对应于在 par 数组中使用 0、1、2 或 3、4、5。

然后在每种情况下，我们都会做两件事来增加值(value)。在这两种情况下，对于小的情况我们使用多项式，而对于大的情况我们使用指数/幂方程。

作为一个猜测，这是因为多项式是小值指数的一个不错的近似值——误差是可以接受的。您应该做的是确认猜测——看一下基于“大”幂/指数的方程的泰勒级数展开，看看它是否与多项式一致。或者用数字检查。

如果是这种情况，则意味着该等式具有可接受的已知误差量。 exp 或 pow 的更快版本通常具有已知的最大错误量；考虑使用这些。

如果不是这种情况，仍然可能存在可接受的误差量，但泰勒级数近似可以为您提供有关可接受误差量的“代码”信息。

下一步我要拆开这个等式的 8 个部分。每个分支中有正/负，第一个和第二个value+=，然后是多项式/指数情况。

我猜测 exp 占用 pow 时间的 1/3 是因为你在你的函数中有 3 次 pow 调用到 1 次 exp 调用，但你可能会发现一些有趣的东西，比如“我们所有的时间实际上在 Tterm > 0. case"或者你有什么。

现在检查调用点。您传递此函数的 Tterm 中是否存在模式？即，您是否倾向于按大致排序的顺序传递 Tterms？如果是这样，你可以在调用这个函数的之外测试调用哪个函数，分批进行。

简单地分批执行并优化编译和内联函数体可能会产生惊人的差异；编译器在矢量化工作方面做得越来越好。

如果这不起作用，您可以开始线程。在现代计算机上，你可以有 4-60 个线程独立解决这个问题，这个问题看起来你几乎可以得到线性加速。基本的线程库(如 TBB)非常适合此类任务。

对于下一步，如果您正在获取大量数据并且需要进行大量处理，则可以将其填充到 GPU 上并在那里解决。可悲的是，GPU<->RAM 通信很小，所以简单地在 GPU 上用这个函数做数学运算并用 RAM 来回读/写不会给你太多的性能。但如果在 GPU 上可以完成比这更多的工作，那可能是值得的。

关于c++ - 寻找加速功能的方法，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/56959472/

27

4

0

文章推荐： c++ - 代码不编译 - 链表，按升序排序列表

文章推荐： c++ - 如何在一对 vector 中输入单个值？

文章推荐： c++ - GCC w/inline assembly & -Ofast 为内存操作数生成额外代码

eclipse - 一旦在 eclipse RCP 中安装了新的插件/功能，是否有任何方法可以自动从磁盘中清除旧的插件/功能？
我正在构建一个 RCP 应用程序，其中每个季度都会更新功能/插件。因此，如果用户选择自动更新功能/插件，则会下载更新插件的新 jar，但旧插件仍在使用我不再使用的磁盘空间。我厌倦了删除包含旧 jar
extjs - 如何从外部 Controller 功能(如sencha touch中的全局功能)调用 Controller 功能
我如何从外部 Controller 功能中调用 Controller 内部的功能，例如电话间隙回调功能这是 Controller 外部定义的功能 function onDeviceReady()
dart - 检查( native )功能/类/功能(例如 MediaSource)是否可用/受支持
如果某个功能(例如 MediaSource)可用，我如何使用 Google Dart 检查。 new MediaSource() 抛出一个错误。如何以编程方式检查此类或功能是否存在？有任何想法吗？是否
azure - Orchestrator 功能 'XYZ' 失败 : The function 'XYZ' doesn't exist, 已禁用，或者不是 Orchestrator 功能
我正在尝试运行 Azure Orchestrations，突然我开始从 statusQueryGetUri 收到错误: 协调器函数“UploadDocumentOrchestrator”失败:函数“U
iphone - 在一个可执行文件中使用 iPhone OS 3.0 功能(如果可用)和 2.1 功能(如果不可用)
我见过 iPhone 上的应用程序，如果在 3.0 上运行，将使用 3.0 功能/API，例如应用内电子邮件编辑器，如果在 2.x 上运行，则不使用这些功能，并退出应用程序以启动邮件相反。这是怎么做
功能 "normalization"
这是 DB 规范化理论中的一个概念: Third normal form is violated when a non-key field is a fact about another non-ke
正确的#if 功能
如果我定义 #if SOMETHING #endif 而且我还没有在任何地方定义 SOMETHING。 #if 中的代码会编译吗？最佳答案当#if的参数表达式中使用的名称未定义为宏时(在所有其他宏
algorithm - A* 功能
我刚刚澄清了 A* 路径查找应该如何在两条路径具有相等值的 [情况] 下运行，无论是在计算期间还是在结束时，如果有两条相等的短路径。例如，我在我的起始节点，我可以扩展到两个可能的节点，但它们都具有相
Java 功能
Java有没有类似下面的东西宏一种遍历所有私有(private)字段的方法类似于 smalltalk symbols 的东西——即用于快速比较静态字符串的东西？请注意，我正在尝试为 black
c - "while()"功能？
这个程序应该将华氏度转换为摄氏度: #include int main() { float fahrenheit, celsius; int max, min, step;
LOTO示波器软件PC缓存(波形录制与回放)功能
当打开PC缓存功能后, 软件将采用先进先出的原则排队对示波器采集的每一帧数据, 进行帧缓存。当发现屏幕中有感兴趣的波形掠过时, 鼠标点击软件的(暂停)按钮, 可以选择回看某一帧的波形
r - 自定义环境中的范围(功能)
我有一个特殊的(虚拟)函数，我想在沙盒环境中使用它: disable.system.call eval(parse(text = 'model.frame("1 ~ 1")'), envir = e
ServiceStack CORS 功能
使用新的 Service 实现，我是否必须为我的所有服务提供一个 Options 方法？使用我的所有服务当前使用的旧 ServiceBase 方法，OPTIONS 返回 OK，但没有 Access-
Clojure 线程!功能
我正在阅读 Fogus 的关于 Clojure 的喜悦的书，在并行编程章节中，我看到了一个函数定义，它肯定想说明一些重要的事情，但我不知道是什么。此外，我看不到这个函数有什么用 - 当我执行时，它什么
vim - 如何限制vim的%功能？
我有大量的 C 代码，大部分代码被注释掉和/或 #if 0。当我使用 % 键匹配 if-else 的左括号和右括号时，它也匹配注释掉的代码。有没有办法或vim插件在匹配括号时不考虑注释掉或#if 0
SML map 功能
我有这个功能: map(map(fn x =>[x])) [[],[1],[2,3,4]]; 产生: val it = [[],[[1]],[[2],[3],[4]]] 我不明白这个功能是如何工作的。
Azure 功能 - 门户代码部署功能正在跳过构建
我使用 Visual Studio 代码创建了一个函数应用程序，然后发布了它。功能应用程序运行良好。我现在在功能门户中使用代码部署功能(KUDU)并跳过构建。下面是日志 9:55:46 AM
r - R如何根据现有数据创建列/功能
我有一个数据框df: userID Score Task_Alpha Task_Beta Task_Charlie Task_Delta 3108 -8.00 Easy Easy
r - 功能:将返回的数据框保存到工作区
我真的无法解决这个问题: 我有一个返回数据框的函数。但是，数据框仅打印在我的控制台中，尽管我希望将其存储在工作空间中。我怎样才能做到这一点？样本数据: n <- 32640 t <- seq(3*p
playframework - 类型安全激活器可用的命令行选项/功能
有没有办法找出所有可能的激活器命令行选项？ activator -help仅提供最低限度的可用选项/功能列表，但所有好的东西都隐藏起来，即使在 typesafe 网站在线文档中也不可用。到目前为止，

首页

博学

6Ren·AI

商城

c++ - 寻找加速功能的方法