r - 记住 Rcpp 函数？-6ren

r - 记住 Rcpp 函数？

转载作者：行者123 更新时间：2023-12-05 00:18:53

我在 R 中编写了一个递归函数并使用 memoise 来加速它。我试图通过在 Rcpp 中编写它然后记住 Rcpp 函数来进一步加快它的速度，但 R 函数更快。为什么会这样，有什么方法可以加快我的使用速度？

require(microbenchmark)
require(Rcpp)
require(memoise)

rcpp 函数:

cppFunction('
double FunCpp (unsigned int i, double d1, double d2, 
                double p, double s, unsigned int imax, 
                double n, double k, double r, 
                double m, double t) {

  if (i == 0) return 0;
  if (i == 1) return log2(-1*d1);
  if (i == 2) return log2(d2*d1 - p*s);

  double x = log2(fabs(-(((imax - (n - i))/imax)*k*r + m + (n - i)*t)));
  x = x + FunCpp(i-1, d1, d2, p, s, imax, n, k, r, m, t);

  double y = log2((n - i + 1)*t*k*r*((imax - ((n - i + 1) - 1))/imax));
  y = y + FunCpp(i-2, d1, d2, p, s, imax, n, k, r, m, t);

  return x + log2(1 - pow(2,y-x));
}
')
FunCpp = memoise(FunCpp)

R函数:

FunR = memoise(function(i, d1, d2, p, s, imax, n, k, r, m, t) {

  if(i == 0) 0
  else if(i == 1) log2(-1*d1)
  else if(i == 2) log2(d2*d1 - p*s)
  else {
    x = log2(abs(-(((imax - (n - i))/imax)*k*r + m + (n - i)*t)))
    x = x + FunR(i-1, d1, d2, p, s, imax, n, k, r, m, t)

    y = log2((n - i + 1)*t*k*r*((imax - ((n - i + 1) - 1))/imax))
    y = y + FunR(i-2, d1, d2, p, s, imax, n, k, r, m, t)  

    x + log2(1 - 2^(y-x))
  }
})

这个速度比较对我来说是现实的。递归函数用于一系列整数，但之后不会再次使用相同的输入调用它。所以为了速度比较，这里我从其他函数中调用函数，在调用完递归函数后，我使用 Forgot() 来重置缓存。

TestFunR = function() {
  x = sapply(1:31, function(i) {
    FunR(i = 31-i, d1 = -152, d2 = -147.33, p = 150, s = 0.03, 
         imax = 30, n = 31, k = 1, r = 1, m = 2, t = 5)
  })
  forget(FunR)
}

TestFunCpp = function() {
  x = sapply(1:31, function(i) {
    FunCpp(i = 31-i, d1 = -152, d2 = -147.33, p = 150, s = 0.03, 
           imax = 30, n = 31, k = 1, r = 1, m = 2, t = 5)
  })
  forget(FunCpp)
}

microbenchmark(TestFunR(), TestFunCpp())


Unit: milliseconds
         expr        min       lq      mean    median        uq       max neval cld
   TestFunR()   9.979738  10.4910  12.83228  10.91887  11.89264  61.61513   100  a 
 TestFunCpp() 520.955483 528.6965 547.31103 536.73058 547.66377 729.57631   100   b

编辑:在发布这篇文章之前，我从德克的书中得到了一种方法。

includeText = '
#include <algorithm>
#include <vector>
#include <stdexcept>
#include <cmath>
#include <iostream>

class F {

  public:
    F(unsigned int n = 200, double d1 = 0, double d2 = 0, double p = 0, double s = 0) {
      memo.resize(n); 
      std::fill( memo.begin(), memo.end(), NAN ); 
      memo[0] = 0;          
      memo[1] = log2(-1*d1);  
      memo[2] = log2(d2*d1 - p*s);
    }

  double FunIL(int i, double d1, double d2, double p, double s, double imax, 
                  double n, double k, double r, double m, double t) {

      if (i < 0) return((double) NAN);
      if (i >= (int) memo.size()) throw std::range_error(\"i too large\");
      if (!std::isnan(memo[i])) return(memo[i]); 

      double x = log2(fabs(-(((imax - (n - i))/imax)*k*r + m + (n - i)*t)));
      x = x + FunIL(i-1, d1, d2, p, s, imax, n, k, r, m, t);

      double y = log2((n - i + 1)*t*k*r*((imax - ((n - i + 1) - 1))/imax));
      y = y + FunIL(i-2, d1, d2, p, s, imax, n, k, r, m, t);

      memo[i] = x + log2(1 - pow(2,y-x));
      return(memo[i]); 
    }
  private:
    std::vector< double > memo; 
};
'
bodyText = '
  int is = Rcpp::as<int>(i);
  double d1s = Rcpp::as<double>(d1);
  double d2s = Rcpp::as<double>(d2);
  double ps = Rcpp::as<double>(p);
  double ss = Rcpp::as<double>(s);
  double imaxs = Rcpp::as<double>(imax);
  double ns = Rcpp::as<double>(n);
  double ks = Rcpp::as<double>(k);
  double rs = Rcpp::as<double>(r);
  double ms = Rcpp::as<double>(m);
  double ts = Rcpp::as<double>(t);
  F f(ns, d1s, d2s, ps, ss);
  return Rcpp::wrap( f.FunIL(is, d1s, d2s, ps, ss, imaxs, ns, ks, rs, ms, ts) );
'

FunInline = cxxfunction(signature(i = "integer", d1 = "numeric", d2 = "numeric", p = "numeric",
                                  s = "numeric", imax = "numeric", n = "numeric", k = "numeric",
                                  r = "numeric", m = "numeric", t = "numeric"),
                        plugin = "Rcpp",
                        verbose = T,
                        incl = includeText,
                        body = bodyText)

它同样有效(参见 TestFunInline):

microbenchmark(TestFunR(), TestFunCpp(), TestFunCpp_Mem(), TestFunInline())
Unit: microseconds
             expr        min         lq        mean      median          uq        max neval cld
       TestFunR()   8871.251   9067.758  10301.8003   9287.5725   9593.1310  19270.081   100  b 
     TestFunCpp() 514415.356 517160.251 522431.2980 519321.6130 523811.7640 584812.731   100   c
 TestFunCpp_Mem()    245.474    264.291    284.8908    281.6105    292.0885    526.870   100 a  
  TestFunInline()    279.686    295.723    378.2134    306.8425    316.0370   6621.364   100 a

但是，我无法让它与 doParallel 一起使用。我正在使用 optim 和 optimx 包优化每个过程的目标函数，当我使用 %do% 时它可以工作，但是当我使用 %dopar% 时，我看到的是无法在初始参数处评估目标函数。我从他的许多其他帖子中接受了 Dirk 的建议，并将 Coatless 的方法放入一个包中，但我不确定如何将 Dirk 书中的方法放入一个包中。这只是我在 C++ 方面的经验不足。

编辑2:它终于点击了如何将Dirk的方法放入我的包中的源文件中。我知道还有其他关于将 Rcpp 与 doParallel 结合使用的讨论，但我将这段代码放在这里是因为这是解决我的问题的另一种好方法，并且通过将此代码添加到我的包中的源文件中，它碰巧要容易得多对我来说，让它在我的并行方法中工作而不是内联。

class F {

  public:
    F(unsigned int n = 200, double d1 = 0, double d2 = 0, double p = 0, double s = 0) {
      memo.resize(n); 
      std::fill( memo.begin(), memo.end(), NAN ); 
      memo[0] = 0;          
      memo[1] = log2(-1*d1);  
      memo[2] = log2(d2*d1 - p*s);
    }

    double FunIL(int i, double d1, double d2, double p, double s, double imax, 
      double n, double k, double r, double m, double t) {

      if (i < 0) return((double) NAN);
      if (i >= (int) memo.size()) throw std::range_error("\"i too large\"");
      if (!std::isnan(memo[i])) return(memo[i]); 

      double x = log2(fabs(-(((imax - (n - i))/imax)*k*r + m + (n - i)*t)));
      x = x + FunIL(i-1, d1, d2, p, s, imax, n, k, r, m, t);

      double y = log2((n - i + 1)*t*k*r*((imax - ((n - i + 1) - 1))/imax));
      y = y + FunIL(i-2, d1, d2, p, s, imax, n, k, r, m, t);

      memo[i] = x + log2(1 - pow(2,y-x));
      return(memo[i]); 
    }
  private:
    std::vector< double > memo; 
};

// [[Rcpp::export]]
double FunDirk(int i, double d1, double d2, double p, double s, 
                  double imax, double n, double k, double r, 
                  double m, double t) {
    F f(n, d1, d2, p, s);
    return f.FunIL(i, d1, d2, p, s, imax, n, k, r, m, t);

}

最佳答案

记住我

嗯，先想想memoise的目的是什么. memoise的目标是到 缓存函数结果和 重复使用它们 .因此，在一次计算之后，它不再需要为计算中的任何其他序列再次重新计算值，它只需从缓存中检索值。这与递归结构设置特别相关。
memoise关于 R 和 C++ 的缓存访问

memoisize 的设置是缓存 R 值函数值。在这种情况下，它正在缓存这些值。但是，C++ 代码不能访问缓存的值。因此，C++ 版本会重新计算这些值中的每一个。从本质上讲，您实际上是在使用:

x = sapply(1:31, function(i) {
    FunCpp(i = 31-i, d1 = -152, d2 = -147.33, p = 150, s = 0.03, 
           imax = 30, n = 31, k = 1, r = 1, m = 2, t = 5)
  })

大 O 算法

免责声明:接下来应该有一个更正式的论点，但已经有一段时间了。

为了理解算法，有时我们需要使用所谓的 Big O notation这允许我们观察代码是如何渐近执行的。现在，在这种情况下，大 O 是 O(2^N)，因为有两次计算调用: Fun(i-1)和 FunR(i-2) .然而， memoise使用一个散列映射/查找表，可能大 O 为 O(n)最坏的情况和 O(1)处于最佳状态。本质上，我们有常数与指数渐近结果。

改进微基准测试 - 在 C++ 中 W/O Memosizing

然而，这并不一定意味着 C++ 函数是垃圾。 R 到 Rcpp 和后桥的缺点之一是在两个域之间传输值之间的延迟时间。因此，我们可以稍微降低计算时间的一种方法是将循环完全放在 C++ 中。

例如

// [[Rcpp::export]]
Rcpp::NumericVector FunCpp_loop(unsigned int e, 
                                double d1, double d2, 
                                double p, double s, unsigned int imax, 
                                double n, double k, double r, 
                                double m, double t){

  Rcpp::NumericVector o(e);

  for(unsigned int i = 0; i < e; i++){

    o(i) = FunCpp(31-(i+1), -152, -147.33, 150, 0.03, 30, 31, 1, 1, 2, 5);

  }

  return o;
}

然而，这里的基准并没有真正改善这种情况(即使通过预先创建向量 1:31 )

Unit: milliseconds
              expr        min         lq       mean     median        uq       max neval
      TestFunR(tv)   8.467568   9.077262   9.986837   9.449952  10.60555  14.91243   100
    TestFunCpp(tv) 476.678391 482.489094 487.687811 486.351087 490.25346 579.38161   100
 TestFunCpp_loop() 478.348070 482.588307 488.234200 486.211347 492.33965 521.10918   100

C++ 中的内存

我们可以应用 memoise 中给出的相同内存技术。在 C++ 中。实现不是那么漂亮和好，但它用于表明相同的原则是适用的。

首先，我们将制作一个哈希图。

// Memoization structure to hold the hash map
struct mem_map{

  // Initializer to create the static (presistent) map
  static std::map<int, double> create_map()
  {
    std::map<int, double> m;
    m.clear();
    return m;
  }

  // Name of the static map for the class
  static std::map<int, double> memo;

};

// Actuall instantiate the class in the global scope (I know, bad me...)
std::map<int, double> mem_map::memo =  mem_map::create_map();

现在，我们可能应该制作一些访问器来处理 map 对象。

// Reset the map
// [[Rcpp::export]]
void clear_mem(){
  mem_map::memo.clear();
}

// Get the values of the map.
// [[Rcpp::export]]
std::map<int, double> get_mem(){
  return mem_map::memo;
}

最后，让我们更改函数中的一些内部内容。

// Users function
// [[Rcpp::export]]
double FunCpp_Mem (int i, double d1, double d2, 
                   double p, double s, unsigned int imax, 
                   double n, double k, double r, 
                   double m, double t) {

  // We have already computed the value...
  if(mem_map::memo.count(i) > 0)
    return mem_map::memo[i];


  // Otherwise, let us get ready to compute it!
  double res = 0; 

  if (i <= 2){ 
    if (i <= 0) { // i == 1 
      res = 0.0;
    }else if (i == 1) {
      res = log2(-1.0*d1);
    }else { // i == 2
      res = log2(d2*d1 - p*s);
    }

    // Store result in hashmap
    mem_map::memo[i] = res;

    return res;
  }

  // Calculate if not in special case.

  double x = log2(fabs(-(((imax - (n - i))/imax)*k*r + m + (n - i)*t)));
  x = x + FunCpp_Mem(i-1, d1, d2, p, s, imax, n, k, r, m, t);

  double y = log2((n - i + 1)*t*k*r*((imax - ((n - i + 1) - 1))/imax));
  y = y + FunCpp_Mem(i-2, d1, d2, p, s, imax, n, k, r, m, t);


  res = x + log2(1 - pow(2,y-x));


  // Update the hashmap for uncalculated value
  mem_map::memo[i] = res;

  return res;
}

很多工作。让我们测试一下，看看它是否值得。

# Benchmark for Rcpp Memoization
TestFunCpp_mem = function(tv) {
  x = sapply(tv, function(i) {
    FunCpp_Mem(i = 31-i, d1 = -152, d2 = -147.33, p = 150, s = 0.03, 
               imax = 30, n = 31, k = 1, r = 1, m = 2, t = 5)
  })
  clear_mem()
}

TestFunR = function(tv) {
  x = sapply(tv, function(i) {
    FunR(i = 31-i, d1 = -152, d2 = -147.33, p = 150, s = 0.03, 
         imax = 30, n = 31, k = 1, r = 1, m = 2, t = 5)
  })
  forget(FunR)
}

# Pre-generate vector
tv = 1:31

microbenchmark(TestFunR(tv),TestFunCpp_mem(tv))

和结果......

microbenchmark(TestFunR(tv),TestFunCpp_mem(tv))
Unit: microseconds
               expr      min       lq      mean   median       uq       max neval
       TestFunR(tv) 8246.324 8662.694 9345.6947 9009.868 9797.126 13001.995   100
 TestFunCpp_mem(tv)  203.832  214.939  253.7931  228.898  240.906  1277.325   100

带内存功能的 Cpp 函数比 R 版本快约 40.5 倍!内存是绝对值得!

关于r - 记住 Rcpp 函数？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/36972904/

文章推荐： scheme - DrRacket 中的 foldr 和 Foldl

文章推荐： sql - 评级系统的数据库设计

文章推荐： r - 使用 mapply 保存时保留列表元素的名称

文章推荐： PHP 三元运算符与空合并运算符

r - 计算 R 中的 R 平方内、R 平方之间或整体 R 平方
我正在从 Stata 迁移到 R(plm 包)，以便进行面板模型计量经济学。在 Stata 中，面板模型(例如随机效应)通常报告组内、组间和整体 R 平方。 I have found plm 随机效应
r - Revolution R 中的模块是开源的。 R 许可证是否意味着我可以免费使用随附的 R 软件包？
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。想改进这个问题？将问题更新为 on-topic对于堆栈溢出。 6年前关闭。 Improve this qu
r - 如何从 R 中的用户输入中读取向量并将其用于进一步处理 [R]
我想要求用户输入整数值列表。用户可以输入单个值或一组多个值，如 1 2 3(spcae 或逗号分隔)然后使用输入的数据进行进一步计算。我正在使用下面的代码 EXP <- as.integer(rea
r - R 中的分类变量 - R 选择哪一个作为引用？
当 R 使用分类变量执行回归时，它实际上是虚拟编码。也就是说，省略了一个级别作为基础或引用，并且回归公式包括所有其他级别的虚拟变量。但是，R 选择了哪一个作为引用，以及我如何影响这个选择？具有四个级
r - 制作数据框或排名调整后的 R 平方 - R
这个问题基本上是我之前问过的问题的延伸:How to only print (adjusted) R-squared of regression model? 我想建立一个线性回归模型来预测具有 15
r - 将已安装的 R 包传输到另一台计算机上的 R
我在一台安装了多个软件包的 Linux 计算机上安装了 R。现在我正在另一台 Linux 计算机上设置 R。从他们的存储库安装 R 很容易，但我将不得不使用安装许多包 install.package
r - R 中字符的对象大小 - R 全局字符串池如何工作？
我正在阅读 Hadley 的高级 R 编程，当它讨论字符的内存大小时，它说: R has a global string pool. This means that each unique strin
r - 是否写入 "ui.R + server.R"或 "app.R"
我们可以将 Shiny 代码写在两个单独的文件中，"ui.R"和 "server.R" , 或者我们可以将两个模块写入一个文件 "app.R"并调用函数shinyApp() 这两种方法中的任何一种在性
r - 在 .R 文件中保存 R 对象(代码)(R 遗传编程)
我正在使用 R 通过 RGP 包进行遗传编程。环境创造了解决问题的功能。我想将这些函数保存在它们自己的 .R 源文件中。我这辈子都想不通怎么办。我尝试过的一种方法是: bf_str = print(b
r - 如何让 R 在编辑后自动加载我的 .r 文件？
假设我创建了一个函数“function.r”，在编辑该函数后我必须通过 source('function.r') 重新加载到我的全局环境中。无论如何，每次我进行编辑时，我是否可以避免将其重新加载到我的
r - 是否可以在命令行中将代码通过管道传递给 R 或 R 脚本？
例如，test.R 是一个单行文件: $ cat test.R # print('Hello, world!') 我们可以通过Rscript test.R 或R CMD BATCH test.R 来
r - 我可以使用 R 笔记本作为 R 包小插图吗？
我知道我可以使用 Rmd 来构建包插图，但想知道是否可以更具体地使用 R Notebooks 来制作包插图。如果是这样，我需要将 R Notebooks 编写为包小插图有什么不同吗？我正在使用最新版本
r - 在 R 运行时更新 R 包
我正在考虑使用 R 包的共享库进行 R 的站点安装。多台计算机将访问该库，以便每个人共享相同的设置。问题是我注意到有时您无法更新包，因为另一个 R 实例正在锁定库。我不能要求每个人都关闭它的 R
r - 如何从命令行向 R 提供表达式但阻止 R 立即退出？
我知道如何从命令行启动 R 并执行表达式(例如， R -e 'print("hello")' )或从文件中获取输入(例如， R -f filename.r )。但是，在这两种情况下，R 都会运行文件中
r - 从另一个 .r 文件中编辑 .r 文件
我正在尝试使我当前的项目可重现，因此我正在创建一个主文档(最终是一个 .rmd 文件)，用于调用和执行其他几个文档。这样我自己和其他调查员只需要打开和运行一个文件。当前设置分为三层:主文件、2 个读
r - 是否有任何简单的方法可以在 R 中制作不需要安装 R 的桌面应用程序
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。想改进这个问题？将问题更新为 on-topic对于堆栈溢出。 5年前关闭。 Improve this qu
r - 如何在 R 包的手册中包含 Authors@R？
我的 R 包中有以下描述文件 Package: blah Title: What the Package Does (one line, title case) Version: 0.0.0.9000
r - 将 R 代码转换为 R 风格
有没有办法更有效地编写以下语句？accel 是一个数据框。 accel[[2]]<- accel[[2]]-weighted.mean(accel[[2]]) accel[[3]]<- accel[[
r - 安装 R 包时，R 如何检查系统外部依赖项？
例如，在尝试安装 R 包时 curl作为 usethis 的依赖项: * installing *source* package ‘curl’ ... ** package ‘curl’ succes
r - 在 R 包中包含 R 脚本
我想将一些软件作为一个包共享，但我的一些脚本似乎并不能很自然地作为函数运行。例如，考虑以下代码块，其中“raw.df”是一个包含离散和连续类型变量的数据框。函数“count.unique”和“squa

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

r - 记住 Rcpp 函数？