gpt4 book ai didi

r - mutate 是否通过引用改变 tbl?

转载 作者:行者123 更新时间:2023-12-03 14:40:45 25 4
gpt4 key购买 nike

我真正喜欢 data.table:=通过引用更改表格的习惯用法,无需昂贵的副本。据我了解,这是造成 data.table 的方面之一。与其他方法相比,速度如此之快。

现在,我开始玩dplyr似乎具有同样性能的软件包。但是由于仍然必须使用 <- 分配结果运营商,我期待在这个级别的性能流失。然而,似乎没有。

举个例子:

library(dplyr)
library(Lahman)
library(microbenchmark)
library(ggplot2)

df <- Batting[ c("yearID", "teamID", "G_batting") ]

mb <- microbenchmark(
dplyr = {
tb <- tbl_df( df )
tb <- tb %.%
group_by( yearID, teamID ) %.%
mutate( G_batting = max(G_batting) )
},
data.table = {
dt <- as.data.table( df )
dt[ , G_batting := max(G_batting), by = list( yearID, teamID ) ]
},
times = 500
)

qplot( data = mb, x = expr, y = time * 1E-6, geom = "boxplot", ylab="time [ms]", xlab = "approach" )

enter image description here

我只是想知道这怎么可能?或者我的基准测试方式是否存在概念错误?是我对 <-的理解吗?错误的?

最佳答案

好问题。一般来说,我会以大到不适合(几乎)完全放入缓存的数据大小进行基准测试。看看here在“初始设置”下。比较为(内存中)大数据开发的工具以运行以毫秒为单位的任务确实没有意义。我们计划在 future 对相对更大的数据进行基准测试。

此外,如果您的意图是找出 mutate正在执行复制,那么您所要做的就是检查 address之前和之后(可以使用 .Internal(inspect(.)) 中的 Rchanges() 中的函数 dplyr 来完成)。

关于是否正在制作副本:

这里有两件不同的事情需要检查。 A) 创建一个新列,以及 B) 修改现有列。

A)创建一个新列:

require(dplyr)
require(data.table)
df <- tbl_df(data.frame(x=1:5, y=6:10))

df2 <- mutate(df, z=1L)
changes(df, df2)
# Changed variables:
# old new
# z 0x105ec36d0

它告诉你 x 的地址没有变化和 y , 并指出 z我们刚刚添加。这里发生了什么事?
dplyr浅拷贝 data.frame然后添加了新列。与深拷贝相反,浅拷贝只拷贝列指针的向量,而不是数据本身。因此它应该很快。基本上 df2由 3 列创建,其中前两列指向 df 相同的地址位置第三列刚刚创建。

另一方面, data.table不必浅拷贝,因为它通过引用(就地)修改列。 data.table还(巧妙地)过度分配列向量列表,允许通过引用快速添加(新)列。

只要列太多,浅拷贝的时间应该不会有很大差异。这是 5000 列 1e4 行的小基准测试:
require(data.table) # 1.8.11
require(dplyr) # latest commit from github

dt <- as.data.table(lapply(1:5e3, function(x) sample(1e4)))
ans1 <- sapply(1:1e2, function(x) {
dd <- copy(dt) # so as to create the new column each time
system.time(set(dd, i=NULL, j="V1001", value=1L))['elapsed']
# or equivalently of dd[, V1001 := 1L]
})

df <- tbl_df(as.data.frame(dt))
ans2 <- sapply(1:1e2, function(x) {
system.time(mutate(df, V1001 = 1L))['elapsed']
})
> summary(ans1) # data.table
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.00000 0.00000 0.00100 0.00061 0.00100 0.00100
> summary(ans2) # dplyr
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.03800 0.03900 0.03900 0.04178 0.04100 0.07900

您可以在此处看到“平均时间”的差异(0.00061 与 0.04178)。

B) 修改现有列:
df2 <- mutate(df, y=1L)
changes(df, df2)
# Changed variables:
# old new
# y 0x105e5a850 0x105e590e0

它告诉你 y已更改 - 一个 列的副本y 已经完成。它必须创建一个新的内存位置来更改 y 的值。 ,因为它指向与 df 相同的位置的 y前。

但是,由于 data.table在(B)的情况下,修改到位将不会复制。它将修改 df到位。因此,如果您正在修改列,您应该会看到性能差异。

This is one of the fundamental differences in the philosophies between the two packages. dplyr doesn't like modifying in-place and therefore trades-off by copying when modifying existing columns.



正因为如此,如果没有深拷贝,就不可能更改 data.frame 特定列的某些行的值。那是:
DT[x >= 5L, y := 1L] # y is an existing column

如果没有使用 base R 的 data.frame 的完整副本,这将无法完成和 dplyr , 据我所知。

此外,考虑在具有 32GB RAM 的机器上的大小为 20GB 的 2 列数据集(每 10GB 两列)。 data.table哲学是提供一种通过引用更改那些 10GB 列的子集的方法,甚至无需复制单个列。一列的副本需要额外的 10GB,并且可能会因内存不足而失败,更不用说速度是否快了。这个概念( :=)类似于 SQL 中的 UPDATE。

关于r - mutate 是否通过引用改变 tbl?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21701537/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com