gpt4 book ai didi

r - 在 R 中进行条件运行总计的更有效方法

转载 作者:行者123 更新时间:2023-12-01 09:26:40 25 4
gpt4 key购买 nike

由于这是我第一次提出关于 SO 的问题,对于任何不正确的格式,我提前道歉。

我对 R 非常陌生,我正在尝试创建一个函数,一旦另一列中的运行总计达到或超过给定值(运行总和开始的行),该函数将返回数据框列的行值也是一个论点)。

例如,给定下面的数据框,如果给定一个起始参数x=3,终止参数y=17,函数应该返回5(y之和>=17所在行的x值) .

X   Y
1 5
2 10
3 5
4 10
5 5
6 10
7 5
8 10

我目前编写的函数返回正确答案,但我必须相信有一种更“R-ish”的方式来完成此任务,而不是使用循环和递增临时变量,并且希望学习正确的方法,而不是养成以后必须改正的坏习惯。

一个非常简化的函数版本:

myFunction<-function(DataFrame,StartRow,Total){
df<-DataFrame[DataFrame[[1]] >= StartRow,]
i<-0
j<-0

while (j < Total) {
i<-i+1
j<-sum(df[[2]][1:i])
}

x<-df[[1]][i]
return(x)
}

最佳答案

到目前为止发布的所有解决方案都计算整个 Y 变量的累积和,这在数据框非常大但索引接近开头的情况下可能效率低下。在这种情况下,使用 Rcpp 的解决方案可能更有效:

library(Rcpp)
get_min_cum2 = cppFunction("
int gmc2(NumericVector X, NumericVector Y, int start, int total) {
double running = 0.0;
for (int idx=0; idx < Y.size(); ++idx) {
if (X[idx] >= start) {
running += Y[idx];
if (running >= total) {
return X[idx];
}
}
}
return -1; // Running total never exceeds limit
}")

与微基准比较:

get_min_cum <- 
function(start,total)
with(dat[dat$X>=start,],X[min(which(cumsum(Y)>total))])
get_min_dt <- function(start, total)
dt[X >= start, X[cumsum(Y) >= total][1]]

set.seed(144)
dat = data.frame(X=1:1000000, Y=abs(rnorm(1000000)))
dt = data.table(dat)
get_min_cum(3, 17)
# [1] 29
get_min_dt(3, 17)
# [1] 29
get_min_cum2(dat$X, dat$Y, 3, 17)
# [1] 29

library(microbenchmark)
microbenchmark(get_min_cum(3, 17), get_min_dt(3, 17),
get_min_cum2(dat$X, dat$Y, 3, 17))
# Unit: milliseconds
# expr min lq median uq max neval
# get_min_cum(3, 17) 125.324976 170.052885 180.72279 193.986953 418.9554 100
# get_min_dt(3, 17) 100.990098 149.593250 162.24523 176.661079 399.7531 100
# get_min_cum2(dat$X, dat$Y, 3, 17) 1.157059 1.646184 2.30323 4.628371 256.2487 100

在这种情况下,使用 Rcpp 解决方案的速度比其他方法快大约 100 倍。

关于r - 在 R 中进行条件运行总计的更有效方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22258815/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com