r - 提高 R 函数的效率和速度-6ren

r - 提高 R 函数的效率和速度

转载作者：行者123 更新时间：2023-12-02 06:02:09

25

4

在使用 RI 时，我始终牢记:“尽可能避免使用循环”。但是，我现在被困住了，我无法找到一种 CRANTASTIC 方法来编写我需要的代码。

郑重声明，经过多次评论，我上面的说法不是正确的说法，这里不需要避免循环来提高效率。

我有两个字符串向量作为输入，我们称它们为 a 和 b - 它们只能包含字母 "M" 、“I” 和 “D”。

a = c("M","I","D","D","M","M","M","M","M","M")
b = c("M","M","M","M","M","M","D","M","M")

我想要的输出是:

d = c("M","I","D","D","M","M","M","M","I","M","M")

下面的函数给出了这样的输出:

my.function <- function(a, b)
{
  nrow.df = length(a) + length(which(b=="D"))
  my.df = data.frame(a = rep(NA, nrow.df),  
                      b = rep(NA, nrow.df), 
                      d = rep(NA, nrow.df))
  my.df$a[1:length(a)] = a
  my.df$b[1:length(b)] = b
  for (i in 1:nrow.df)
  {
    if(my.df$a[i] == "D") {
      my.df$d[i] = "D"
      my.df$b[(i+1):nrow.df] = my.df$b[i:(nrow.df-1)]
    } else if (my.df$b[i] == "D") {
      my.df$d[i] = "I"
      my.df$a[(i+1):nrow.df] = my.df$a[i:(nrow.df-1)]
    } else if (my.df$a[i] == "I") {
      my.df$d[i] = "I"
    } else if (my.df$b[i] == "I") {
      my.df$d[i] = "D"
    } else {
      my.df$d[i] = my.df$a[i]
    }
  }
  return(my.df$d)
}

> d = my.function(a,b)
> d
 [1] "M" "I" "D" "D" "M" "M" "M" "M" "I" "M" "M"

函数逻辑如下，每当a中有"D"时，就在中放入一个"D" >d 并将向量 b 移动 1，反之亦然，每当 b 中有一个 "D" 时，它将 “I” 放入 d 并将 a 移动 1。

接下来，当a中有"I"，而b中没有"D"时>，在a中放一个"I"，反之亦然，只要在b中有一个"I" >，而不是 a 中的 "D"，将 "D" 放入 d 中。否则，d = a。

这不是一个复杂的函数，但我正在努力研究如何使其 R 高效。我用 mclapply 应用了这个函数数百万次，所以快速实现这个函数会节省我很多时间。

您推荐使用 Rcpp 吗？会不会快很多？数百万次使用 R 与 Cpp 进行通信是否会变慢，或者它只是自动与 Rcpp 通信？

最佳答案

根据我的评论，如果速度是一个问题，第一步是不要不必要地使用 data.frame。这个答案没有解决循环问题(正如其他人已经说过的，如果正确完成，在 R 中使用循环没有任何问题)。

这是您函数的非常轻微修改版本，使用vector而不是data.frame s 存储数据。

my.function.v <- function(a, b) {
  nrow.df = length(a) + length(which(b=="D"))
  A <- B <- D <- vector(length = nrow.df)
  A[1:length(a)] = a
  B[1:length(b)] = b
  for (i in 1:nrow.df)
  {
    if(A[i] == "D") {
      D[i] = "D"
      B[(i+1):nrow.df] = B[i:(nrow.df-1)]
    } else if (B[i] == "D") {
      D[i] = "I"
      A[(i+1):nrow.df] = A[i:(nrow.df-1)]
    } else if (A[i] == "I") {
      D[i] = "I"
    } else if (B[i] == "I") {
      D[i] = "D"
    } else {
      D[i] = A[i]
    }
  }
  return(D)
}

注意下面速度的相对差异:

library(microbenchmark)
microbenchmark(my.function(a, b), my.function.v(a, b), f(a, b))
# Unit: microseconds
#                 expr      min        lq    median        uq      max neval
#    my.function(a, b) 1448.416 1490.8780 1511.3435 1547.3880 6674.332   100
#  my.function.v(a, b)  157.248  165.8725  171.6475  179.1865  324.722   100
#              f(a, b)  168.874  177.5455  184.8775  193.3455  416.551   100

可以看出，@mrip 的功能也比您原来的功能好得多。

关于r - 提高 R 函数的效率和速度，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/19143383/

25

4

0

文章推荐： java - 浮点加法 - 给出奇怪的结果..!

文章推荐： java - 如何用正则表达式解析字符串？

文章推荐： java - 为什么会出现java.lang.StringIndexOutOfBoundsException？

文章推荐： ember.js - 在Ember数据中遍历DS.hasMany

jQuery .on 效率
第一个 .on 函数比第二个更有效吗？ $( "div.container" ).on( "click", "p", function(){ }); $( "body" ).on( "click",
JavaScript 效率
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。这个问题似乎与 help center 中定义的范围内的编程无关。 . 已关闭 7 年前。 Improve
jQuery 效率
我有这样的查询: $('#tabContainer li'); JetBrains WebStorm IDE 将其突出显示为低效查询。它建议我改用这个: $('#tabContainer').find
Ruby 效率
我刚刚在 coursera ( https://www.coursera.org/saas/) 上听了一个讲座，教授说 Ruby 中的一切都是对象，每个方法调用都是在对象上调用发送方法，将一些参数传递
excel - 函数输入数据类型是否影响循环速度/效率
这可能是用户“不喜欢”的另一个问题，因为它更多的是与建议相关而不是与问题相关。我有一个在保存和工作簿打开时触发的代码。它在 f(白天与夜晚，日期与实际日期)中选择正确的工作表。周一到周三我的情况
performance - 效率:递归与循环
这只是我的好奇心，但是更有效的是递归还是循环？给定两个功能（使用通用lisp）： (defun factorial_recursion (x) (if (> x 0) (*
loops - For循环或While循环-效率
这可能是一个愚蠢的问题，但是while循环的效率与for循环的效率相比如何？我一直被教导，如果可以使用for循环，那我应该这样做。但是，实际上之间的区别是什么: $i = 0; while($i <
elasticsearch - elasticsearch排序与得分-效率？
我有一个Elasticsearch索引，其中包含几百万条记录。 (基于时间戳的日志记录) 我需要首先显示最新记录(即，按时间戳降序排列的记录) 在时间戳上排序desc是否比使用时间戳的函数计分功能更有
Java 效率 - 点与坐标
使用Point2D而不是double x和y值时，效率有很大差异吗？我正在开发一个程序，该程序有许多圆圈在屏幕上移动。他们各自从一个点出发，并越来越接近目的地(最后，他们停下来)。使用 .getC
Java ArrayList 效率
我正在编写一个游戏，并且有一个名为 GameObject 的抽象类和三个扩展它的类(Player、Wall 和 Enemy)。我有一个定义为包含游戏中所有对象的列表。 List objects; 当
javascript - 链接与创建新集合 - 效率
我是 Backbone 的初学者，想知道两者中哪一个更有效以及预期的做事方式。 A 型:创建一个新集合，接受先前操作的结果并从新集合中提取 key result = new Backbone.Coll
SQL 通配符搜索 - 效率？
最近，关于使用 LIKE 和通配符搜索 MS SQL 数据库的最有效方法存在争论。我们正在使用 %abc%、%abc 和 abc% 进行比较。有人说过，术语末尾应该始终有通配符 (abc%)。因此，根
java - Scala 效率
关闭。这个问题是opinion-based 。目前不接受答案。想要改进这个问题吗？更新问题，以便 editing this post 可以用事实和引文来回答它。 . 已关闭 8 年前。 Improv
java - setVisible() 效率
我想知道，这样做会更有效率吗: setVisible(false) // if the component is invisible 或者像这样: if(isVisible()){
c# - 很多insertQuerys - 效率
我有一个静态方法可以打开到 SQL Server 的连接、写入日志消息并关闭连接。我在整个代码中多次调用此方法(平均每 2 秒一次)。问题是 - 它有效率吗？我想也许积累一些日志并用一个连接插入它们
javascript - PHP生成jQuery——效率
这个问题在这里已经有了答案: Best practice to avoid memory or performance issues related to binding a large numbe
java - 石头剪刀布游戏 - 效率？
我为我的 CS 课(高中四年级)制作了一个石头剪刀布游戏，我的老师给我的 shell 文件指出我必须将 do while 循环放入运行者中，但我不明白为什么？我的代码可以工作，但她说最好把它写在运行者
java - 自定义数组包装类类型转换安全/效率
我正在编写一个需要通用列表的 Java 应用程序。该列表需要能够经常动态地调整大小，对此的明显答案是通用的Linkedlist。不幸的是，它还需要像通过调用索引添加/删除值一样频繁地获取/设置值。 A
php - MYSQL查询的问题(效率)
我的 Mysql 语句遇到了真正的问题，我需要将几个表连接在一起，查询它们并按另一个表中值的平均值进行排序。这就是我所拥有的... SELECT ROUND(avg(re.rating
java - 效率？这些代码之间有什么区别吗？
这个问题在这里已经有了答案: 关闭 10 年前。 Possible Duplicate: Is there a difference between i==0 and 0==i? 以下编码风格有什么

首页

博学

6Ren·AI

商城

r - 提高 R 函数的效率和速度