gpt4 book ai didi

r - 为什么在 `j` 中评估比在 `$` 中评估 `data.table` 更快?

转载 作者:行者123 更新时间:2023-12-04 23:45:26 26 4
gpt4 key购买 nike

也许这已经得到了回答,我错过了,但很难搜索。

一个很简单的问题:为什么是dt[,x]通常比 dt$x 快一点点?

例子:

dt<-data.table(id=1:1e7,var=rnorm(1e6))

test<-microbenchmark(times=100L,
dt[sample(1e7,size=200000),var],
dt[sample(1e7,size=200000),]$var)

test[,"expr"]<-c("in j","$")

Unit: milliseconds
expr min lq mean median uq max neval
$ 14.28863 15.88779 18.84229 17.23109 18.41577 53.63473 100
in j 14.35916 15.97063 18.87265 17.99266 18.37939 54.19944 100

我可能没有选择最好的例子,所以请随意提出一些可能更尖锐的建议。

无论如何,在 j 中评估至少在 75% 的情况下更快(尽管由于平均值更高,似乎有一个肥大的上尾;旁注,如果 microbenchmark 可以吐出一些直方图,那就太好了)。

为什么会这样?

最佳答案

j ,您正在调用 [.data.table 中的子集和选择.

$ (和您的电话),您正在 [.data.table 内设置子集然后选择 $
您本质上是在调用 2 个函数而不是 1 个函数,因此时间上的差异可以忽略不计。

在您当前的示例中,您每次都调用 `sampling(1e,200000)。

用于比较以返回相同的结果

dt<-data.table(id=1:1e7,var=rnorm(1e6))
setkey(dt, id)
ii <- sample(1e7,size=200000)


microbenchmark("in j" = dt[.(ii),var], "$"=dt[.(ii)]$var, '[[' =dt[.(ii)][['var']], .subset2(dt[.(ii)],'var'), dt[.(ii)][[2]], dt[['var']][ii], dt$var[ii], .subset2(dt,'var')[ii] )
Unit: milliseconds
expr min lq mean median uq max neval cld
in j 39.491156 40.358669 41.570057 40.860342 41.485622 70.202441 100 b
$ 39.957211 40.561965 41.587420 41.136836 41.634584 69.928363 100 b
[[ 40.046558 40.515480 42.388432 41.244444 41.750946 72.224827 100 b
.subset2(dt[.(ii)], "var") 39.772781 40.564077 41.561271 41.111630 41.635489 69.252222 100 b
dt[.(ii)][[2]] 40.004300 40.513669 41.682526 40.927503 41.492866 72.986995 100 b
dt[["var"]][ii] 4.432346 4.546898 4.946219 4.623416 4.755777 31.761115 100 a
dt$var[ii] 4.440496 4.539502 4.668361 4.597457 4.729214 5.425125 100 a
.subset2(dt, "var")[ii] 4.365939 4.508261 4.660435 4.598815 4.703858 6.072289 100 a

关于r - 为什么在 `j` 中评估比在 `$` 中评估 `data.table` 更快?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29956250/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com