r - 使用 data.table 快速取消嵌套-6ren

r - 使用 data.table 快速取消嵌套

转载作者：行者123 更新时间：2023-12-04 02:25:23

26

4

我目前正在使用 tidyr打包以取消嵌套列表列。但是，我正在寻找更快的方法并转向 data.table (我是菜鸟)。考虑以下示例:

dt1 <- data.table::data.table(
    a = c("a1", "a2"),
    df1 = list(data.frame(
        b = c("b1", "b2")
    ))
)

tidyr::unnest(dt1, df1)
#> # A tibble: 4 x 2
#>   a     b    
#>   <chr> <chr>
#> 1 a1    b1   
#> 2 a1    b2   
#> 3 a2    b1   
#> 4 a2    b2

dt1[, data.table::rbindlist(df1), by = .(a)]
#>     a  b
#> 1: a1 b1
#> 2: a1 b2
#> 3: a2 b1
#> 4: a2 b2
Created on 2021-06-22 by the reprex package (v1.0.0)

我得到相同的结果，但如果我有一个大 data.table以及 by 中的更多列这种方法在 data.table 中的性能更差比 tidyr .这能缓解吗？
一个后续问题是如何使用 data.table 取消嵌套多个列.考虑这个例子:

dt2 <- data.table::data.table(
    a = c("a1", "a2"),
    df1 = list(data.frame(
        b = c("b1", "b2")
    )),
    df2 = list(data.frame(
        c = c("c1", "c2")
    ))
)

tidyr::unnest(dt2, c(df1, df2))
#> # A tibble: 4 x 3
#>   a     b     c    
#>   <chr> <chr> <chr>
#> 1 a1    b1    c1   
#> 2 a1    b2    c2   
#> 3 a2    b1    c1   
#> 4 a2    b2    c2
Created on 2021-06-22 by the reprex package (v1.0.0)

在 data.table::rbindlist 中使用多个参数似乎不起作用。
更新:在制作了一个大(r)示例来证明我对执行时间的主张之后，结果是 tidyr对列表列是否包含 data.frame 相当敏感s 或 data.table s:

n_inner <- 300
inner_df <- data.frame(
    d1 = seq.POSIXt(as.POSIXct("2020-01-01"), as.POSIXct("2021-01-01"), length.out = n_inner),
    d2 = seq.POSIXt(as.POSIXct("2020-01-01"), as.POSIXct("2021-01-01"), length.out = n_inner),
    d3 = rnorm(n_inner)
)

n_outer <- 400

dt <- data.table::data.table(
    a = sample(10, n_outer, replace = TRUE),
    b = seq.POSIXt(as.POSIXct("2020-01-01"), as.POSIXct("2021-01-01"), length.out = n_outer),
    c = seq.POSIXt(as.POSIXct("2019-01-01"), as.POSIXct("2020-01-01"), length.out = n_outer),
    d = rep(list(inner_df), n_outer)
)

bench::mark(check = FALSE,
    tidyr = tidyr::unnest(dt, d),
    datatable = dt[, data.table::rbindlist(d), by = .(a, b, c)]
)
#> # A tibble: 2 x 6
#>   expression      min   median `itr/sec` mem_alloc `gc/sec`
#>   <bch:expr> <bch:tm> <bch:tm>     <dbl> <bch:byt>    <dbl>
#> 1 tidyr          14ms   18.7ms      53.2      18MB     26.6
#> 2 datatable    56.2ms   56.2ms      17.8    25.5MB    178.

inner_dt <- data.table::as.data.table(inner_df)
dt$d <- rep(list(inner_dt), n_outer)

bench::mark(check = FALSE,
    tidyr = tidyr::unnest(dt, d),
    datatable = dt[, data.table::rbindlist(d), by = .(a, b, c)]
)
#> Warning: Some expressions had a GC in every iteration; so filtering is disabled.
#> # A tibble: 2 x 6
#>   expression      min   median `itr/sec` mem_alloc `gc/sec`
#>   <bch:expr> <bch:tm> <bch:tm>     <dbl> <bch:byt>    <dbl>
#> 1 tidyr       202.2ms  209.3ms      4.40    28.4MB     19.1
#> 2 datatable    43.5ms   49.9ms     18.3     25.4MB     22.0

创建于 2021-06-22 由 reprex package (v1.0.0)
在我的实际用例中，我嵌套了 data.frame s 因为它来自用 RcppSimdJson 解析的 JSON和这里 tidyr是比较快的。

最佳答案

只是做一个基准，显示与 data.table 的解决方案的差异和 tidyr以另一种方式给出 data.table和一个 base解决方案。

DT <- data.table::data.table(
    a = c("a1", "a2"),
    df1 = list(data.frame(
        b = c("b1", "b2")
    ))
)
n <- 1e5
set.seed(42)
dt1 <- DT[sample(seq_len(nrow(DT)), n, TRUE),]

bench::mark(check = FALSE
          , tidyr = tidyr::unnest(dt1, df1)
          , dt = dt1[, data.table::rbindlist(df1), by = .(a)]
          , dt2 = dt1[, unlist(df1, TRUE, FALSE), .(a)]
          , base = data.frame(a=rep(dt1$a, lapply(dt1$df1, nrow)), do.call(rbind, dt1$df1))
          , base2 = data.frame(a=rep(dt1$a, lapply(dt1$df1, nrow)), b=unlist(dt1$df1, TRUE, FALSE))
      )
#  expression      min   median `itr/sec` mem_alloc `gc/sec` n_itr  n_gc
#  <bch:expr> <bch:tm> <bch:tm>     <dbl> <bch:byt>    <dbl> <int> <dbl>
#1 tidyr         1.03s    1.03s     0.971   22.59MB     7.76     1     8
#2 dt           46.9ms  50.15ms    17.1     15.01MB     9.47     9     5
#3 dt2         11.66ms  13.66ms    70.8     14.03MB    35.4     36    18
#4 base          3.47s    3.47s     0.288   43.23MB    12.1      1    42
#5 base2       353.9ms 363.41ms     2.75     4.58MB    11.0      2     8

所以 data.table两种方式中最快的，其次是一种 base解决方案，然后 tidyr然后是另一个 base解决方案。

关于r - 使用 data.table 快速取消嵌套，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/68080021/

26

4

0

文章推荐： python - 我如何像 Altair 这样并排创建条形图？

文章推荐： python - 将函数中的默认参数值设置为另一个参数的值

文章推荐： r - 如何在 R 中输出\楔形？

linux - (取消/取消)在 bash 中压缩一个字符串？
是否可以使用标准输入/标准输出在 bash 中压缩/解压缩字符串？我试过了，但显然不支持它？ hey=$(echo "hello world" | gzip -cf) echo $hey # ret
javascript - 取消/取消 IE7 输入搜索上的 JavaScript 操作
我的任务是让一个企业网站适用于 IE7，它必须“足够好”，因此我禁用了任何导致问题的花哨/非必要功能。其中之一是正在使用的搜索栏，需要进行哪些搜索，我猜测幕后某个地方有某种 JavaScript 用
取消 getchar()
我有一个执行大量处理的小程序。您可以通过按回车键打印进度。我实现它的方法是在主线程中完成处理，同时我有一个 pthread 不断循环 getchar() 以等待输入键。问题是当我完成处理时。发生这
android - CoroutineScope 取消
我完全理解 suspendCoroutine 与 suspendCancellableCoroutine 在我的示例中的工作方式。但我想知道为什么 println("I finished") (第 1
qt - QFileDialog 取消
我是 QT 的新手。目前在我的项目中我实现了 QFileDialog . 在我的用例中:每当用户选择一个文本文件时，它都会执行 functionA .但是，我发现如果在文件对话框中单击取消，funct
excel - 取消 GetSaveAsFilename
我有代码，仅在用户选择“另存为”时运行。为此并获取我正在使用的文件的新名称 Application.GetSaveAsFilename功能。我遇到的问题是类型不匹配，同时检查用户是否在他没有这样做时
iphone - 取消 UILocalNotification
我的 UILocalNotification 有问题。我正在用我的方法安排通知。 - (void) sendNewNoteLocalReminder:(NSDate *)date alrt:(NS
javascript - 取消 XMLHttpRequest？
祝你有美好的一天我有一个网站，其中有很多“工具提示”。这些工具提示是在将鼠标悬停在文本的特定部分上时创建的。工具提示是一个 div block ，它显示在网站上所有其他内容的顶部，并且当光标从文本移
Java TimerTask 取消
我遇到以下问题。每隔 2 秒，程序就会进入 if 语句。在这个 if 语句中，我想要一个计时器，它会在 15 秒后给我一条消息。计时器应延迟 1 秒运行。但是当我用计时器“等待”时，if 语句将再执行
java - FutureTask 取消()
基本上我有以下代码片段， (let [task (FutureTask. fn) thr (Thread. task)] (.start thr) ;;wait for signa
iphone - 取消 ASIHTTPRequest
取消正在进行的 ASIHttpRequest 请求的正确位置在哪里？这就是我取消的方式，但是当我时它继续崩溃在不让请求完成的情况下从一个 View Controller 转移到另一个 View Co
c# - BackgroundWorker 取消
我在我的 winforms 应用程序中使用 BackgroundWorker 来执行另一个类中发生的长时间运行的任务(执行数据库操作)。由于所有工作都是在另一个类中完成的，因此取消并不那么简单。我在另
android - 取消/关闭图标上的通知
我正在使用 OneSignal 向我的用户显示通知。通知工作正常，但我注意到，如果我在通知栏中“滑动”取消通知，则通知将永远保留，这是一张显示应用程序图标上的通知的图像，我想在应用程序已打开: 我看到
android - 取消 AsyncTask
正在运行的 AsyncTask 的 .cancel(boolean) 方法如何工作？这是文档: Attempts to cancel execution of this task. This atte
ios - (取消)激活约束如何在内部工作？
我注意到，当我激活约束时，我会立即在该行代码处收到一条警告，指出不能同时满足约束。我假设布局是在“UI 更新周期”之类的稍后时间点计算的，而不是每次约束都被(取消)激活。因此，在(取消)激活约束的代
ios - 取消 NSThread
这是我创建线程的方式: readFromWebThread = [[NSThread alloc] initWithTarget:self selector:@selector(loadThread:
ios - 取消 UILocalNotification
我目前正在尝试取消与我的数据模型中的对象关联的特定 UILocalNotifications。为此，每个数据对象都有一个唯一标识符，即 NSUUID。创建 UILocalNotification:
javascript确认(取消)返回false时仍然提交表单
当我提交并单击“确定”时，它会继续，但当我按“取消”时，它仍然会提交。我尝试使用此代码，但提交和取消按钮仍然执行相同的操作。 model.saveForm = function() { var
javascript - 取消 setTimeout()
我有一个警报弹出窗口，当发生特定操作时会出现该弹出窗口。 5 秒后，使用 setTimeout() 隐藏警报弹出窗口。我遇到的问题是，如果我多次触发弹出窗口，有时后续的弹出窗口会出现但立即消失。我相
javascript - 取消/停止超时功能
我有一些 javascipt (jQuery)，其中单击按钮时会淡入 #myDiv，然后使用超时函数在 5 秒后再次淡出。它工作正常，但如果用户在超时内的 fadeOut 函数运行之前再次单击该按钮，

首页

博学

6Ren·AI

商城

r - 使用 data.table 快速取消嵌套