gpt4 book ai didi

r - 为什么 dplyr 这么慢?

转载 作者:行者123 更新时间:2023-12-02 10:46:27 25 4
gpt4 key购买 nike

像大多数人一样,Hadley Wickham 以及他为 R 所做的事情给我留下了深刻的印象 - 所以我想我应该将一些功能转向他的 tidyverse 。 .. 这样做之后我想知道这一切的意义是什么?

我的新 dplyr 函数比它们的基本等效函数慢得多 - 我希望我做错了什么。我特别希望通过理解非标准评估所需的努力获得一些返回。

那么,我做错了什么?为什么dplyr这么慢?

示例:

require(microbenchmark)
require(dplyr)

df <- tibble(
a = 1:10,
b = c(1:5, 4:0),
c = 10:1)

addSpread_base <- function() {
df[['spread']] <- df[['a']] - df[['b']]
df
}

addSpread_dplyr <- function() df %>% mutate(spread := a - b)

all.equal(addSpread_base(), addSpread_dplyr())

microbenchmark(addSpread_base(), addSpread_dplyr(), times = 1e4)

计时结果:

Unit: microseconds
expr min lq mean median uq max neval
addSpread_base() 12.058 15.769 22.07805 24.58 26.435 2003.481 10000
addSpread_dplyr() 607.537 624.697 666.08964 631.19 636.291 41143.691 10000

因此,使用 dplyr 函数来转换数据大约需要 30 倍的时间 - 这当然不是本意吗?

我认为这可能是一个太简单的情况 - 如果我们有一个更现实的情况,即添加列并对数据进行子设置,dplyr 将会真正发挥作用 - 但是这更糟。从下面的计时中可以看出,这比基本方法慢约 70 倍。

# mutate and substitute
addSpreadSub_base <- function(df, col1, col2) {
df[['spread']] <- df[['a']] - df[['b']]
df[, c(col1, col2, 'spread')]
}

addSpreadSub_dplyr <- function(df, col1, col2) {
var1 <- as.name(col1)
var2 <- as.name(col2)
qq <- quo(!!var1 - !!var2)
df %>%
mutate(spread := !!qq) %>%
select(!!var1, !!var2, spread)
}

all.equal(addSpreadSub_base(df, col1 = 'a', col2 = 'b'),
addSpreadSub_dplyr(df, col1 = 'a', col2 = 'b'))

microbenchmark(addSpreadSub_base(df, col1 = 'a', col2 = 'b'),
addSpreadSub_dplyr(df, col1 = 'a', col2 = 'b'),
times = 1e4)

结果:

Unit: microseconds
expr min lq mean median uq max neval
addSpreadSub_base(df, col1 = "a", col2 = "b") 22.725 30.610 44.3874 45.450 53.798 2024.35 10000
addSpreadSub_dplyr(df, col1 = "a", col2 = "b") 2748.757 2837.337 3011.1982 2859.598 2904.583 44207.81 10000

最佳答案

这些是微秒,你的数据集有 10 行,除非你计划循环数百万个 10 行的数据集,否则你的基准几乎是无关紧要的(在这种情况下,我无法想象它不会出现的情况)明智的第一步是将它们绑定(bind)在一起)。

让我们用更大的数据集来做这件事,比如大一百万倍:

df <- tibble(
a = 1:10,
b = c(1:5, 4:0),
c = 10:1)

df2 <- bind_rows(replicate(1000000,df,F))

addSpread_base <- function(df) {
df[['spread']] <- df[['a']] - df[['b']]
df
}
addSpread_dplyr <- function(df) df %>% mutate(spread = a - b)

microbenchmark::microbenchmark(
addSpread_base(df2),
addSpread_dplyr(df2),
times = 100)
# Unit: milliseconds
# expr min lq mean median uq max neval cld
# addSpread_base(df2) 25.85584 26.93562 37.77010 32.33633 35.67604 170.6507 100 a
# addSpread_dplyr(df2) 26.91690 27.57090 38.98758 33.39769 39.79501 182.2847 100 a

仍然相当快并且没有太大区别。

至于你得到的结果的“原因”,那是因为你使用了一个更复杂的函数,所以它有开销。

评论者指出,dplyr 并没有太努力地追求速度,也许与 data.table 相比确实如此,而且接口(interface)是首要考虑的问题,但作者也一直在努力提高速度。例如,混合评估允许(如果我做对了)在与常用函数聚合时直接对分组数据执行 C 代码,这比基本代码快得多,但简单的代码使用简单的函数总是运行得更快。

关于r - 为什么 dplyr 这么慢?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54324620/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com