r - 如何翻译data.table代码崩溃-6ren

r - 如何翻译data.table代码崩溃

转载作者：行者123 更新时间：2023-12-05 02:01:24

我最近阅读了 collapse 包，并尝试将以下 data.table 代码转换为 collapse 以查看它在现实世界示例中是否更快。

这是我的 data.table 代码:

library(data.table)
library(nycflights13)

data("flights")
flights_DT <- as.data.table(flights)

val_var <- "arr_delay"
id_var <- "carrier"
by <- c("month", "day")

flights_DT[
  j = list(agg_val_var = sum(abs(get(val_var)), na.rm = TRUE)), 
  keyby = c(id_var, by)
][
  i = order(-agg_val_var), 
  j = list(value_share = cumsum(agg_val_var)/sum(agg_val_var)), 
  keyby = by
][
  j = .SD[2L],
  keyby = by
][
  order(-value_share)
]
#>      month day value_share
#>   1:    10   3   0.5263012
#>   2:     1  24   0.5045664
#>   3:     1  20   0.4885145
#>   4:    10  17   0.4870692
#>   5:     3   6   0.4867606
#>  ---                      
#> 361:     5   4   0.3220295
#> 362:     6  15   0.3205974
#> 363:     1  28   0.3197260
#> 364:    11  25   0.3161550
#> 365:     6  14   0.3128286

^{由 reprex package (v1.0.0) 创建于 2021-03-11}

我设法翻译了第一个 data.table 调用，但后来遇到了困难。

很高兴看到如何使用 collapse 来处理这个用例。

最佳答案

因此，关于这一点，我首先要指出的是 collapse 不是而且可能永远不会是像 dplyr 这样的成熟的拆分应用组合计算工具> 或 data.table。它的重点不是按组优化执行任意代码表达式，而是通过它提供的广泛的基于 C++ 的统计和数据转换函数来提供高级和高效的分组、加权、时间序列和面板数据计算。我引用了关于 collapse 和 data.table 的 vignette 以进一步阐明这些要点以及集成示例。

因此，我认为将 data.table 代码转换为 collapse 才有意义，如果 (1) 您在 中想出了一个神秘的表达式data.table 做一些它不擅长的复杂统计(例如加权聚合，计算分位数或按组计算模式，滞后/差分不规则面板，分组居中或线性/多项式拟合)(2)您实际上不需要 data.table 对象，但更愿意使用向量/矩阵/data.frame/tibbles (3) 您想要编写统计程序并且更喜欢标准评估编程通过 NS eval 和 data.table 语法或 (4) collapse 对于您的特定应用程序确实要快得多。

现在查看您提供的具体代码。它混合了标准和非标准评估(例如通过使用 get())，这是 collapse 不太擅长的事情。我将为您提供 3 种解决方案，从完整的 NS eval 到完整的标准 eval base R 风格编程。

library(data.table)
library(nycflights13)
library(magrittr)
library(collapse)

data("flights")
flights_DT <- as.data.table(flights)

# Defining a function for the second aggregation
myFUN <- function(x) (cumsum(x[1:2])/sum(x))[2L]

# Soluting 1: Non-Standard evaluation
flights_DT %>%
  fgroup_by(carrier, month, day) %>% 
  fsummarise(agg_val_var = fsum(abs(arr_delay))) %>% 
  roworder(month, day, -agg_val_var, na.last = NA) %>%
  fgroup_by(month, day) %>%
  fsummarise(value_share = myFUN(agg_val_var)) %>% 
  roworder(-value_share)
#>      month day value_share
#>   1:    10   3   0.5263012
#>   2:     1  24   0.5045664
#>   3:     1  20   0.4885145
#>   4:    10  17   0.4870692
#>   5:     3   6   0.4867606
#>  ---                      
#> 361:     5   4   0.3220295
#> 362:     6  15   0.3205974
#> 363:     1  28   0.3197260
#> 364:    11  25   0.3161550
#> 365:     6  14   0.3128286

^{由 reprex package (v0.3.0) 创建于 2021-03-12}

请注意 na.last = NA 的使用，它实际上删除了缺少 agg_val_var 的情况。这是这里需要的，因为 fsum(NA) 是 NA 而不是 0 像 sum(NA, na.rm = TRUE)。现在可能接近您提供的代码的混合示例:

val_var <- "arr_delay"
id_var <- "carrier"
by <- c("month", "day")

# Solution 2: Hybrid approach with standard eval and magrittr pipes
flights_DT %>%
  get_vars(c(id_var, val_var, by)) %>%
  ftransformv(val_var, abs) %>% 
  collapv(c(id_var, by), fsum) %>%
  get_vars(c(by, val_var)) %>%
  roworderv(decreasing = c(FALSE, FALSE, TRUE), na.last = NA) %>%
  collapv(by, myFUN) %>%
  roworderv(val_var, decreasing = TRUE) %>%
  frename(replace, names(.) == val_var, "value_share")
#>      month day value_share
#>   1:    10   3   0.5263012
#>   2:     1  24   0.5045664
#>   3:     1  20   0.4885145
#>   4:    10  17   0.4870692
#>   5:     3   6   0.4867606
#>  ---                      
#> 361:     5   4   0.3220295
#> 362:     6  15   0.3205974
#> 363:     1  28   0.3197260
#> 364:    11  25   0.3161550
#> 365:     6  14   0.3128286

^{由 reprex package (v0.3.0) 创建于 2021-03-12}

请注意，我在末尾使用了 frename 来为结果列指定您想要的名称，因为您不能在 collapse 。最后，collapse 的一大优点是您可以将它用于非常底层的编程:

 # Solution 3: Programming
data <- get_vars(flights_DT, c(id_var, val_var, by))
data[[val_var]] <- abs(.subset2(data, val_var))
g <- GRP(data, c(id_var, by))
data <- add_vars(get_vars(g$groups, by), 
                 fsum(get_vars(data, val_var), g, use.g.names = FALSE))
data <- roworderv(data, decreasing = c(FALSE, FALSE, TRUE), na.last = NA)
g <- GRP(data, by)
columns
data <- add_vars(g$groups, list(value_share = BY(.subset2(data, val_var), g, myFUN, use.g.names = FALSE)))
data <- roworderv(data, "value_share", decreasing = TRUE)
data
#>      month day value_share
#>   1:    10   3   0.5263012
#>   2:     1  24   0.5045664
#>   3:     1  20   0.4885145
#>   4:    10  17   0.4870692
#>   5:     3   6   0.4867606
#>  ---                      
#> 361:     5   4   0.3220295
#> 362:     6  15   0.3205974
#> 363:     1  28   0.3197260
#> 364:    11  25   0.3161550
#> 365:     6  14   0.3128286
^{由 reprex package (v0.3.0) 创建于 2021-03-12}
我建议您参阅 programming 上的博客文章，其中包含 collapse 以获取更有趣的示例，说明这如何有益于统计代码的开发。
现在为了评估，我将这些解决方案包装在函数中，其中 DT() 是您提供的 data.table 代码，在 Windows 机器上以 2 个线程运行.这检查相等性:
 all_obj_equal(DT(), clp_NSE(), clp_Hybrid(), clp_Prog())
#> TRUE

现在是基准:
 library(microbenchmark)
microbenchmark(DT(), clp_NSE(), clp_Hybrid(), clp_Prog())
#> Unit: milliseconds
#>          expr      min       lq     mean   median       uq       max neval cld
#>          DT() 85.81079 87.80887 91.82032 89.47025 92.54601 132.26073   100   b
#>     clp_NSE() 13.47535 14.15744 15.99264 14.80606 16.29140  28.16895   100  a 
#>  clp_Hybrid() 13.79843 14.23508 16.61606 15.00196 16.83604  32.94648   100  a 
#>    clp_Prog() 13.71320 14.17283 16.16281 14.94395 16.16935  39.24706   100  a

如果您关心这些毫秒，请随意优化，但对于 340,000 obs，所有解决方案都非常快。

 
  
  关于r - 如何翻译data.table代码崩溃，我们在Stack Overflow上找到一个类似的问题：  https://stackoverflow.com/questions/66590656/

文章推荐： python - 名称错误 : name 'history' is not defined

文章推荐： c# - 使用 Serilog ASP.NET Core 重复错误消息

文章推荐： bootstrap-4 - 导航栏下拉菜单在 Blazor 服务器上不起作用

【翻译】rocksdbwritestall
翻译自官方wiki： https://github.com/facebook/rocksdb/wiki/Write-Stalls 转载请注明出处： https://www.cnblogs.c
翻译：REST和gRPC详细比较
译者注：在微服务架构设计，构建API和服务间通信技术选型时，对 REST 和 gRPC 的理解和应用还存在知识盲区，近期看到国外的这篇文章： A detailed comparison of
【翻译】rocksdb调试指引
rocksdb调试指引翻译自官方wiki: https://github.com/facebook/rocksdb/wiki/RocksDB-Tuning-Guide 转载请注明出处： h
浅谈MVC框架的优点(翻译)
传统的ASP.NET Web Forms是一个非常好的主意，但现实需求非常复杂。随着时间的推移，现实世界的项目暴露出Web Forms的一些不足之处： “沉重的”视图状态：现实中在http请求之间
十个最常见的Java字符串问题(翻译)
翻译自：Top 10 questions of Java Strings 简单地说，”==”测试两个字符串的引用是否相同，equals()测试两个字符串的值是否相同。除非你希望检
理解Java当中的回调机制(翻译)
你好，今天我要和大家分享一些东西，举例来说这个在JavaScript中用的很多。我要讲讲回调（callbacks）。你知道什么时候用，怎么用这个吗？你真的理解了它在java环境中的用法了吗？当我也问
JAVA多线程和并发基础面试问答(翻译)
　Java多线程面试问题　　1. 进程和线程之间有什么不同？　　一个进程是一个独立(self contained)的运行环境，它可以被看作一个程序或者一个应用。而线程是在进程中执行的一个
[翻译].NET8的原生AOT及高性能Web开发中的应用[附性能测试结果]
原文: [A Dive into .Net 8 Native AOT and Efficient Web Development] 作者: [sharmila subbiah] 引言随着 .NE
angularjs - Angular 翻译
这是Fiddle 是否可以在 angular-translate 中检查其他语言的键值是否可用，然后它可以从其他语言中提取该键值？就像在示例中，我有英语和西类牙语。并且一个键值(例如“CONFIRM
外部脚本中的 Magento 翻译
我希望能够使用 $this->__('String to translate')在外部脚本中。我该怎么做呢？ Magento 版本 1.5.1.0 . 最佳答案我认为设置语言环境的正确方法是: Ma
自定义属性的 Angular 翻译
我有一个开关小部件，它使用自定义数据属性值来标记自己。 .switch.switch-text .switch-label::before { right: 1px; color: #c2cf
java - 翻译 LOC
是否有人遇到过这样的情况:用 Java 编写并由(例如)法国程序员编写的现有代码库必须转换为英语程序员可以理解的代码？这里的问题是变量/方法/类名称、注释等都将采用该特定语言。现在有可用的自动化解决
java - java解释器在逐行执行代码之前是否执行转换/翻译？
维基百科和其他一些网站将解释器描述为将代码从某种高级语言翻译成某种低级语言的翻译器。然而，有很多解释，包括在 stackoverflow 中，它说解释器直接执行作为输入的指令，而无需事先转换。那么解释
image - 通过在自定义单元格内进行修饰来制作基本的动画/翻译
我想将基本动画应用于自定义单元格中的某些元素，例如标签、图像:特别是，我想让这些动画在我触摸单元格内部时也启动。我是初学者，我只学会了使用 animateWithDuration 和 transiti
ios - DateComponentFormatter 翻译
这个问题在这里已经有了答案: NSDateFormatter and current language in iOS11 (5 个回答) 已关闭 3 年前。当使用这样的 DateComponentF
javascript - 在这种情况下如何转换、翻译？
我想在点击 var about 时移动 div.willshow。但我单击那个 btn，只有它获得类 active。然后我再次单击那个 btn 它失去了类。如果我再点击一次，每项任务都无法正常工作。
CSS 翻译 - 意外行为
我想要一个按钮在悬停时向下移动几个像素，但它又回来了。当您还在上面徘徊时，它不应该留在原处吗？ Email Me .btn {background: #2ecc71; padding: .5em 1e
javascript - Angular 翻译
在我的应用程序中，我想添加功能将页面翻译为用户在浏览器中设置的所有语言，如果没有可用的语言，则翻译为默认英语...问题是浏览器与语言支持不一致。我找到了一个解决方法，我对一些返回用户语言的 Web 服
html - 谷歌翻译，翻译 ="no"
我的应用程序有一个 Help.htm 文件，用谷歌翻译翻译得相当好。我想将菜单项标记为“请勿翻译”，但我发现并尝试过的 HTML 标签都不起作用。对于以下内容，我使用了谷歌翻译网站 - 它翻译了我没想
CSS3 翻译() 方法
我有以下代码: span { width:200px; height:100px; background-color:red; border:1px solid black; } span.c2 {

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

r - 如何翻译data.table代码崩溃