- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我真正喜欢 data.table
是 :=
通过引用更改表格的习惯用法,无需昂贵的副本。据我了解,这是造成 data.table
的方面之一。与其他方法相比,速度如此之快。
现在,我开始玩dplyr
似乎具有同样性能的软件包。但是由于仍然必须使用 <-
分配结果运营商,我期待在这个级别的性能流失。然而,似乎没有。
举个例子:
library(dplyr)
library(Lahman)
library(microbenchmark)
library(ggplot2)
df <- Batting[ c("yearID", "teamID", "G_batting") ]
mb <- microbenchmark(
dplyr = {
tb <- tbl_df( df )
tb <- tb %.%
group_by( yearID, teamID ) %.%
mutate( G_batting = max(G_batting) )
},
data.table = {
dt <- as.data.table( df )
dt[ , G_batting := max(G_batting), by = list( yearID, teamID ) ]
},
times = 500
)
qplot( data = mb, x = expr, y = time * 1E-6, geom = "boxplot", ylab="time [ms]", xlab = "approach" )
<-
的理解吗?错误的?
最佳答案
好问题。一般来说,我会以大到不适合(几乎)完全放入缓存的数据大小进行基准测试。看看here在“初始设置”下。比较为(内存中)大数据开发的工具以运行以毫秒为单位的任务确实没有意义。我们计划在 future 对相对更大的数据进行基准测试。
此外,如果您的意图是找出 mutate
正在执行复制,那么您所要做的就是检查 address
之前和之后(可以使用 .Internal(inspect(.))
中的 R
或 changes()
中的函数 dplyr
来完成)。
关于是否正在制作副本:
这里有两件不同的事情需要检查。 A) 创建一个新列,以及 B) 修改现有列。
A)创建一个新列:
require(dplyr)
require(data.table)
df <- tbl_df(data.frame(x=1:5, y=6:10))
df2 <- mutate(df, z=1L)
changes(df, df2)
# Changed variables:
# old new
# z 0x105ec36d0
x
的地址没有变化和
y
, 并指出
z
我们刚刚添加。这里发生了什么事?
dplyr
浅拷贝
data.frame
然后添加了新列。与深拷贝相反,浅拷贝只拷贝列指针的向量,而不是数据本身。因此它应该很快。基本上
df2
由 3 列创建,其中前两列指向
与 df
相同的地址位置第三列刚刚创建。
data.table
不必浅拷贝,因为它通过引用(就地)修改列。
data.table
还(巧妙地)过度分配列向量列表,允许通过引用快速添加(新)列。
require(data.table) # 1.8.11
require(dplyr) # latest commit from github
dt <- as.data.table(lapply(1:5e3, function(x) sample(1e4)))
ans1 <- sapply(1:1e2, function(x) {
dd <- copy(dt) # so as to create the new column each time
system.time(set(dd, i=NULL, j="V1001", value=1L))['elapsed']
# or equivalently of dd[, V1001 := 1L]
})
df <- tbl_df(as.data.frame(dt))
ans2 <- sapply(1:1e2, function(x) {
system.time(mutate(df, V1001 = 1L))['elapsed']
})
> summary(ans1) # data.table
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.00000 0.00000 0.00100 0.00061 0.00100 0.00100
> summary(ans2) # dplyr
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.03800 0.03900 0.03900 0.04178 0.04100 0.07900
df2 <- mutate(df, y=1L)
changes(df, df2)
# Changed variables:
# old new
# y 0x105e5a850 0x105e590e0
y
已更改 - 一个
列的副本y
已经完成。它必须创建一个新的内存位置来更改
y
的值。 ,因为它指向与
df
相同的位置的
y
前。
data.table
在(B)的情况下,修改到位将不会复制。它将修改
df
到位。因此,如果您正在修改列,您应该会看到性能差异。
This is one of the fundamental differences in the philosophies between the two packages.
dplyr
doesn't like modifying in-place and therefore trades-off by copying when modifying existing columns.
DT[x >= 5L, y := 1L] # y is an existing column
R
的 data.frame 的完整副本,这将无法完成和
dplyr
, 据我所知。
data.table
哲学是提供一种通过引用更改那些 10GB 列的子集的方法,甚至无需复制单个列。一列的副本需要额外的 10GB,并且可能会因内存不足而失败,更不用说速度是否快了。这个概念(
:=
)类似于 SQL 中的 UPDATE。
关于r - mutate 是否通过引用改变 tbl?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21701537/
我有以下MWE function f(p) ans = zeros(p, 2) return ans end ans = f(2) ans b=ans.+1.0 ans 起初,ans是正确的,
OWIN AppBuilder“UseStatic”位从本地文件系统传送文件,这在某些情况下很方便,但我希望它从我在应用程序启动时预先填充的内存中 IDictionary 传送内容。任何人都可以指出一
我是 JavaScript 新手。 我的代码允许我列出 JSON 文档的元素及其类型,并将所有元素连接到一个字符串 donnees_types 中。 问题是 JavaScript 中的 typeof
我想在每次刷新时更改主页上的背景图像。我怎样才能做到这一点?我认为 jquery 是可能的,但我不太清楚。 感谢您对此主题的任何帮助或评论。 最佳答案 我不知道“如何”,但我找到了以下链接: http
所以我已经在这上面花了几个小时了,老实说我完全陷入困境。我写了一个 for 循环来计算整数中的数字数量,但我发现一旦我输入 10 位以上的数字,除数值就会发生变化,而且我不明白为什么。我在互联网上搜索
当我在使用表面 View 的游戏 Activity 和使用膨胀菜单的其他 Activity 之间切换时,我会收到错误消息。 日志猫: 07-13 15:15:34.464: ERROR/Android
听说很简单 R*=f; G*=f; B*=f; 其中 f 是标量值 0 .. 1.0 或更大改变亮度的方法不太正确颜色,但我找不到一些代码片段获得更好的东西(无需太多学习色彩理论)也许有人可以在这里给
如以下链接所述:- How to get the ThreadPoolExecutor to increase threads to max before queueing? 我将队列实现更改为在进入
我只显示最初提供 20 分钟 slotMinutes 的日历。我试图让用户即时更改为 10 分钟的 slotMinutes。 我有一个触发以下代码的按钮: $('#calendar').fullCal
我的问题是:我的应用程序中有一个新闻列表(UITableView)当我点击 1 个"new"时,我打开它,里面有一个后退按钮,可以让我回到列表。现在的问题是我必须在滑动时实现"new"更改,所以我制作
我面临着与 I'm trying to install psycopg2 onto Mac OS 10.6.3; it claims it can't find "stdarg.h" but I ca
需要通过为 array2 中不存在的索引设置 visible false 来从 array1 创建一个新的 array3。 在下面的示例中,我有索引 0,2。所以对于 1,3,结果数组必须具有 vis
我有一个对象,类似这样 var Egg = function(){ this.test = $(.slider .label); $('.slider').slider({
我想改变 ScrollView 的宽度。首先,我这样做了: var scrollWidthConstraint: NSLayoutConstraint! 然后设置它: scrollWidthConst
我有两个动画,一个是“过渡”,它在悬停时缩小图像,另一个是 animation2,其中图像的不透明度以周期性间隔重复变化。 我有 animation2 在图像上进行,当我将鼠标悬停在它上面时,anim
我是一个 jQuery 新手,一直在尝试添加一个脚本来更改 div onClick 的 id。 这是一个jsfiddle example . $(function accept() { $("
我正在尝试更改用户输入的字母的大小写,并将该字母的小写和大写版本存储在变量中。我已经编写了下面的代码,但它在运行时遇到了问题。有人指出是什么导致了问题吗? #include #include #i
假设我有这段代码: char num[2] = {15, 240}; char* p_num; 现在,如果我理解的一切正确,数组中的位应该像这样对齐: 00001111 11110000 我的问题是
var html = '' + count + '' + i.Description + '' + i.Priority + '' + i.Status + 'johnsmith- ' + creat
我在虚拟机上安装了 minix3,并希望我可以操纵当前的队列选择算法,以便我可以将其从优先级顺序更改为包括随机分类的低优先级作业的优先级顺序。我发现我需要更改的代码部分在 proc.c 中,具体部分是
我是一名优秀的程序员,十分优秀!