performance - 矢量化操作的速度取决于 data.frame 的列数-6ren

performance - 矢量化操作的速度取决于 data.frame 的列数

转载作者：行者123 更新时间：2023-12-04 22:05:48

为什么在具有相同元素数量的 data.frame 上进行比较需要更长的时间，但在矢量化操作中排列在更多列中？以这个简单的例子为例，我们从每个元素中减去 0.5，然后比较它是否 < 0 ( related to this question ):

f.df <- function( df , x = 0.5 ){
  df <- df - x
  df[ df < 0 ] <- 0
  return( df )
}


df1 <- data.frame( matrix( runif(1e5) , nrow = 1e2 ) )
df2 <- data.frame( matrix( runif(1e5) , nrow = 1e3 ) )
df3 <- data.frame( matrix( runif(1e5) , nrow = 1e4 ) )

require( microbenchmark )
microbenchmark( f.df( df1 ) , f.df( df2 ) , f.df( df3 ) , times = 10L )


#Unit: milliseconds
#     expr        min         lq     median         uq        max neval
# f.df(df1) 1562.66827 1568.21097 1595.07005 1674.91726 1680.90092    10
# f.df(df2)   95.77452   98.12557  101.31215  190.46906  198.23927    10
# f.df(df3)   16.25295   16.42373   16.74989   17.95621   18.69218    10

最佳答案

一些分析表明您的大部分时间都花在 [<-.data.frame 上。

因此，缩放问题来自 Ops.data.frame 和 [<-.dataframe 如何工作以及 [<-.data.frame 如何复制，以及命名列表的 [[<- 副本。
Ops.data.frame 中的相关代码(附上我的评论)

 # cn is the names of your data.frame 
 for (j in seq_along(cn)) {
         left <- if (!lscalar) 
             e1[[j]]
         else e1
         right <- if (!rscalar) 
             e2[[j]]
         else e2
         value[[j]] <- eval(f)
     }
    # sometimes return a data.frame
     if (.Generic %in% c("+", "-", "*", "/", "%%", "%/%")) {
         names(value) <- cn
         data.frame(value, row.names = rn, check.names = FALSE, 
             check.rows = FALSE)
     } # sometimes return a matrix
     else matrix(unlist(value, recursive = FALSE, use.names = FALSE), 
         nrow = nr, dimnames = list(rn, cn))

当您使用 Ops.data.frame 时，它将在 for 循环中循环使用 [[<- 每次替换您的列。
这意味着随着列数的增加，所需的时间会增加(因为会有一些保护性的内部复制，因为它是一个 data.frame 命名为 list )——因此它将与列数成线性比例

# for example  only this part will scale with the number of columns
f.df.1 <- function( df , x = 0.5 ){
     df <- df - x

     return( df )
 }
microbenchmark(f.df.1(df1),f.df.1(df2),f.df.1(df3), times = 10L)
# Unit: milliseconds
#        expr       min        lq   median         uq        max neval
# f.df.1(df1) 96.739646 97.143298 98.36253 172.937100 175.539239    10
# f.df.1(df2) 11.697373 11.955173 12.12206  12.304543 281.055865    10
# f.df.1(df3)  3.114089  3.149682  3.41174   3.575835   3.640467    10

当 [<-.data.frame 是与 i 维度相同的逻辑矩阵时， x 具有类似的列循环

 if(is.logical(i) && is.matrix(i) && all(dim(i) == dim(x))) {
            nreplace <- sum(i, na.rm=TRUE)
            if(!nreplace) return(x) # nothing to replace
            ## allow replication of length(value) > 1 in 1.8.0
            N <- length(value)
            if(N > 1L && N < nreplace && (nreplace %% N) == 0L)
                value <- rep(value, length.out = nreplace)
            if(N > 1L && (length(value) != nreplace))
                stop("'value' is the wrong length")
            n <- 0L
            nv <- nrow(x)
            for(v in seq_len(dim(i)[2L])) {
                thisvar <- i[, v, drop = TRUE]
                nv <- sum(thisvar, na.rm = TRUE)
                if(nv) {
                    if(is.matrix(x[[v]]))
                        x[[v]][thisvar, ] <- if(N > 1L) value[n+seq_len(nv)] else value
                    else
                        x[[v]][thisvar] <- if(N > 1L) value[n+seq_len(nv)] else value
                }
                n <- n+nv
            }
            return(x)


f.df.2 <- function( df , x = 0.5 ){
     df[df < 0 ] <- 0

     return( df )
 }
 microbenchmark(f.df.2(df1), f.df.2(df2), f.df.2(df3), times = 10L)
# Unit: milliseconds
#        expr       min        lq    median        uq       max neval
# f.df.2(df1) 20.500873 20.575801 20.699469 20.993723 84.825607    10
# f.df.2(df2)  3.143228  3.149111  3.173265  3.353779  3.409068    10
# f.df.2(df3)  1.581727  1.634463  1.707337  1.876240  1.887746    10

[<- data.frame(和 <- )也将复制

如何提高。您可以使用 lapply 包中的 set 或 data.table

library(data.table)
sdf <- function(df, x = 0.5){
   # explicit copy so there are no changes to original
   dd <- copy(df)
  for(j in names(df)){
    set(dd, j= j, value = dd[[j]] - 0.5)
    # this is slow when (necessarily) done repeatedly perhaps this 
    # could come out of the loop and into a `lapply` or `vapply` statment
    whi <- which(dd[[j]] < 0 )
    if(length(whi)){
     set(dd, j= j, i = whi, value = 0.0)
    }
  }
  return(dd)
}

 microbenchmark(sdf(df1), sdf(df2), sdf(df3), times = 10L)
# Unit: milliseconds
# expr       min        lq    median        uq        max neval
# sdf(df1) 87.471560 88.323686 89.880685 92.659141 153.218536    10
# sdf(df2)  6.235951  6.531192  6.630981  6.786801   7.230825    10
# sdf(df3)  2.631641  2.729612  2.775762  2.884807   2.970556    10

# a base R approach using lapply
ldf <- function(df, x = 0.5){

  as.data.frame(lapply(df, function(xx,x){ xxx <- xx-x;replace(xxx, xxx<0,0)}, x=x))

}

# pretty good. Does well with large data.frames
microbenchmark(ldf(df1), ldf(df2), ldf(df3), times = 10L)
# Unit: milliseconds
# expr       min        lq    median         uq        max neval
# ldf(df1) 84.380144 84.659572 85.987488 159.928249 161.720599    10
# ldf(df2) 11.507918 11.793418 11.948194  12.175975  86.186517    10
# ldf(df3)  4.237206  4.368717  4.449018   4.627336   5.081222    10

# they all produce the same
dd <- sdf(df1)
ddf1 <- f.df(df1)
ldf1 <- ldf(df1)
identical(dd,ddf1)
## [1] TRUE
identical(ddf1, ldf1)
## [1] TRUE

# sdf and ldf comparable with lots of columns
# see benchmarking below.
microbenchmark(sdf(df1), ldf(df1), f.df(df1),  times = 10L)
# Unit: milliseconds
# expr        min         lq     median         uq       max neval
# sdf(df1)   85.75355   86.47659   86.76647   87.88829  172.0589    10
# ldf(df1)   84.73023   85.27622   85.61528  172.02897  356.4318    10
# f.df(df1) 3689.83135 3730.20084 3768.44067 3905.69565 3949.3532    10
# sdf ~ twice as fast with smaller data.frames
 microbenchmark(sdf(df2), ldf(df2), f.df(df2),  times = 10L)
# Unit: milliseconds
# expr       min         lq     median         uq        max neval
# sdf(df2)   6.46860   6.557955   6.603772   6.927785   7.019567    10
# ldf(df2)  12.26376  12.551905  12.576802  12.667775  12.982594    10
# f.df(df2) 268.42042 273.800762 278.435929 346.112355 503.551387    10
microbenchmark(sdf(df3), ldf(df3), f.df(df3),  times = 10L)
# Unit: milliseconds
# expr       min        lq    median        uq       max neval
# sdf(df3)  2.538830  2.911310  3.020998  3.120961 74.980466    10
# ldf(df3)  4.698771  5.202121  5.272721  5.407351  5.424124    10
# f.df(df3) 17.819254 18.039089 18.158069 19.692038 90.620645    10

# copying of larger objects is slower, repeated calls to which are slow.

microbenchmark(copy(df1), copy(df2), copy(df3), times = 10L)
# Unit: microseconds
# expr     min      lq   median      uq     max neval
# copy(df1) 369.926 407.218 480.5710 527.229 618.698    10
# copy(df2) 165.402 224.626 279.5445 296.215 519.773    10
# copy(df3) 150.148 180.625 214.9140 276.035 467.972    10

关于performance - 矢量化操作的速度取决于 data.frame 的列数，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/16219708/

文章推荐： sql - 为什么我应该避免 SQL 数据库中的 NULL 值？

文章推荐： google-maps-api-3 - 如何更改 Google Maps API V3 中的图标颜色？

文章推荐： enthought - 如何使用 Chaco 在同一轴上绘制多个 (x,y) 系列？

文章推荐：使用 RSA key 的 ssh 连接不断询问密码

iphone - XCode- "Previous frame inner to this frame (gdb could not unwind past this frame)"
最近，我在 XCode 上的调试器停止正常工作，并给出了以下错误: 此帧内的前一帧(gdb 无法展开超过此帧) 我已经浏览过 SO 的另一个线程，谈论丢失的符号。我通过删除符号目录并让它从 iPod
iphone - 调试器错误 : Previous frame inner to this frame (gdb could not unwind past this frame)
当我在设备上遇到断点时，出现以下调试器错误: 来自调试器的错误:此帧内的上一帧(gdb 无法展开超过此帧) 当应用程序遇到断点时，就会发生这种情况。如果我点击调试器中的继续按钮，它会愉快地继续，直到下
frame - 如何从 Frame 的历史记录中删除页面？
如何在 WinRT XAML 应用程序中操作框架的历史记录？用户将从我的中心页面开始，他们可以在其中选择一个现有项目以转到其编辑屏幕，或者他们可以选择“新项目”。 “新项目”将引导他们完成一个简短的
python - 比较后用其他 Frame 覆盖 Frame
2 帧，我希望第 2 帧“覆盖”/更新第 1 帧。基本上，其中 Table1-colB-value = Table2-oldB-value，用 Table2-newB-value 覆盖 Table1-
安卓 : Frame by Frame animation not working?
我正在尝试逐帧动画，但它给了我一个强制关闭，我不确定为什么它给我一个强制关闭。在我看来一切都很好。这是我的代码，我希望有人能帮忙吗？提前致谢。动画测试.java import android.ap
Java Swing Frame 导航到另一个 Frame
这是我的主课。 package pomsystem; public class POMSystem { public static void main(String[] args) {
class - 为什么 ifelse 将 data.frame 转换为列表 : ifelse(TRUE, data.frame(1), 0)) != data.frame(1)？
如果为TRUE，我想从函数返回一个data.frame，否则使用return(ifelse(condition, mydf, NA)) 返回NA 但是， ifelse 会从 data.frame 中删
python Pandas : compare two data-frames along one column and return content of rows of both data frames in another data frame
我正在处理两个 csv 文件并导入为数据框 df1 和 df2 df1 有 50000 行，df2 有 150000 行。我想比较(遍历每一行)df2 的“时间”df1，求时间差，返回所有列的值对应
r - 将 data.frames(n x 2 data.frames)列表 reshape 为单个 data.frame(n x 3 列)
我将许多文件夹中的小文本文件读取到一个列表中。因此，我有一个长度为 n 的列表，其中包含 2 个 data.frames。这是列表元素 3 的示例(在问题末尾输入) ip_list[[3]] $`d
R:如何高效地判断data.frame A是否包含在data.frame B中？
为了找出数据框 df.a 是否是数据框 df.b 的子集，我做了以下操作: df.a semi_join(df.b, df.a) Joining by: c("x", "y") x y 1 1
从一维 data.frame 中删除行并将其保留为 data.frame
在某些情况下，出于实现原因，我有一个只包含一个列的 data.frame df=as.data.frame(alpha=1:15) 如果我现在使用 df[-1, ] 它返回一个向量，但我想将它保留为一
c# - Frame.Navigate() 与 this.Frame.Navigate()
Windows 8.1 商店应用中的 Frame.Navigate() 和 this.Frame.Navigate() 有什么区别？这有什么区别 Frame.Navigate(typeof(Logi
根据另一个 data.frame 替换 data.frame 中的一些列值
我有两个 data.frames (df1, df2)，我想用 df1$V2 的值替换 P1-P10 列中的字母值，但保留前两列df2. df1 = data.frame(V1=LETTERS, V2
r - 使用与现有 data.frame 相同的列和行名称初始化空白 data.frame
有没有更好的方法来制作与现有 data.frame 具有相同维度、列名和行名的空白 data.frame？ BAM<-read.table(~/myfile) # 10 rows and 10 co
r - data.frames 列表中特定 data.frame 列的高效函数
我有一个列表 data.frame s。例如 set.seed(1) my_list result.df id var_p var_m var_d var_a
r - 通过匹配变量将值从一个 data.frame 添加到另一个 data.frame
假设我有两个数据框 df1 和 df2 如下 Df1 Id Price Profit Month 10 5 2 1 10 5 3 2 10 5 2
iframe - X-Frame-Options : does not permit framing 拒绝加载
我将创建一个网站，除了它自己的内容之外，它还将链接(在 iframe 中)到世界最大的报纸网站，如纽约时报、金融时报和其他一些网站。但是我遇到了框架许可的问题。例如，纽约时报向我展示了一个错误 Lo
r - 如何从 data.frame 中提取单个列作为 data.frame？
假设我有一个 data.frame: df x x A 1 10 2 20 3 30 从文档中(参见 ?"[" )您可以找到: If drop=TRUE the result is coer
r - 如何创建与现有 data.frame 具有相同列名称和类型的新 data.frame？
我有一个想要克隆的现有 data.frame，但没有其中的值。 IE。我希望新框架具有与现有框架相同的列名称和类型。原始帧的大小可能为 GB 量级，因此复制和删除数据似乎不是正确的方法，并且迭代现有列
r - 使用一个 data.frame 更新另一个 data.frame
给定两个在列名称/数据类型方面相同的数据帧，其中某些列唯一标识行，是否有一种有效的函数/方法可以让一个数据帧“更新”另一个数据帧？例如，在下面的例子中，原始和替换由'Name'和'Id'标识>。 g

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

performance - 矢量化操作的速度取决于 data.frame 的列数