r - dplyr : row_number() from tbl_dt inconsistent to tbl

r - dplyr : row_number() from tbl_dt inconsistent to tbl_df 中的唯一行

转载作者：行者123 更新时间：2023-12-04 07:53:42

24

4

英文缩写:

我想知道如何从 data.table 中获取唯一的行在某处沿着 dplyr工作流程。从 v0.2 开始，我可以使用 row_number==1 (见:Remove duplicated rows using dplyr)

但!
tbl_df(data) %>% group_by(Var1,Var2) %>% filter(row_number() == 1)作品。
tbl_dt(data) %>% group_by(Var1,Var2) %>% filter(row_number() == 1)没有。 这是一个错误吗？

设置:

library(dplyr)
library(data.table)
library(microbenchmark)

little <- expand.grid(rep(letters,121),rep(letters,121)) # my 10M row dataset.
tbl_dt(little) %>% group_by(Var1,Var2) %>% filter(row_number() == 1)

结果:

> Error in rank(x, ties.method = "first") : 
> argument "x" is missing, with no default

这就是我实际上发现它坏了的方式。我是问:

这样还是那样？

我可以使用 unique.data.table方法:

 dt_u <- function() {
           tbl_dt(little) %>% 
           group_by(Var1,Var2) %>% 
           unique(.) %>% 
           tbl_dt(.) }

我可以用 summarise然后 select离开新上校:

dt_ss <- function() {
           tbl_dt(little) %>% 
           group_by(Var1,Var2) %>% 
           summarise( n = n() ) %>% 
           select( -(n) ) }

我可以用 row_number() == 1 # 不适用于 tbl_dt!

 dt_rn <- function() {
           tbl_dt(little) %>% 
           group_by(Var1,Var2) %>% 
           filter( row_number() == 1 ) }

以此类推 tbl_df()等价物。

对等价的 data.table/data.frame 方法进行基准测试 microbenchmark(...,times=20) :

> Unit: milliseconds
>     expr       min        lq    median        uq       max neval
>  dt_ss()  579.0385  618.0002  661.9056  694.0705  764.2221    20
>  dt_u()   690.1284  729.8723  756.5505  783.7379  897.4799    20
>  df_ss()  419.7841  436.9871  448.1717  461.7023  523.2798    20
>  df_u()  3971.1699 4044.3663 4097.9848 4168.3468 4245.8346    20
>  df_rn()  646.1497  687.3472  711.3924  724.6235  754.3166    20

最佳答案

有趣的。你的基准测试激起了我的兴趣。我觉得你不和 data.table 比较有点奇怪的 unique.data.table直接地。因此，这是将其也包含在我的系统中的结果。

# extra function with which the benchmark shown below was run
dt_direct <- function() unique(dt) # where dt = as.data.table(little)

# Unit: milliseconds
#         expr       min        lq    median        uq       max neval
#       dt_u() 1472.2460 1571.0871 1664.0476 1742.5184 2647.2118    20
#       df_u() 6084.2877 6303.9058 6490.1686 6844.8767 7370.3322    20
#      dt_ss() 1340.8479 1485.4064 1552.8756 1586.6706 1810.2979    20
#      df_ss()  799.5289  835.8599  884.6501  957.2208 1251.5994    20
#      df_rn() 1410.0145 1576.2033 1660.1124 1770.2645 2442.7578    20
#  dt_direct()  452.6010  463.6116  486.5015  568.0451  670.3673    20

它比所有运行中最快的解决方案快 1.8 倍。

现在，让我们将唯一值的数量从 676 增加到大约 10,000，看看会发生什么。

val = paste0("V", 1:100)
little <- data.frame(Var1=sample(val, 1e7, TRUE), Var2=sample(val, 1e7, TRUE))
dt <- as.data.table(little)

# Unit: milliseconds
#         expr      min        lq    median        uq       max neval
#       dt_u() 1709.458 1776.3510 1892.7761 1991.6339 2562.9171    20
#       df_u() 7541.364 7735.4725 7981.3483 8462.9093 9552.8629    20
#      dt_ss() 1555.110 1627.6519 1791.5219 1911.3594 2299.2864    20
#      df_ss() 1436.355 1500.1043 1528.1319 1649.3043 1961.9945    20
#      df_rn() 2001.396 2189.5164 2393.8861 2550.2198 3047.7019    20
#  dt_direct()  508.596  525.7299  577.6982  674.2288  893.2116    20

在这里，速度提高了 2.6 倍。

Note: I don't time the creation of dt here because, in real use cases, you can either use fread to get a data.table directly, or use setDT to convert a data.table by reference or directly use data.table(.) instead of data.fame(.) - which is not timed as well.

但为什么两者都是 dt_u和 dt_ss那么慢吗？

通过查看文件 grouped-dt.r和 manip-grouped-dt.r ，这是由于 1) 副本和 2) 设置键而发生的。 (1)基本上是因为不得不做(2)。如果您使用 dplyr 进行汇总操作，它等价于:

DT <- copy(DT);
setkey(DT, <group_cols>  ## these two are in grouped_dt
DT[, j, by=<group_cols>] ## this is in summarise.grouped_dt
DT <- copy(DT)           ## because it calls grouped_dt AGAIN!
## and sets key again - which is O(n) now as DT checked if sorted first..

我不确定为什么在 this discussion under Hadey's answer 之后没有实现临时分组.

## equivalent ad-hoc by
DT[, j, by=<group_cols] ## no copy, no setkey

它避免了副本和设置 key 。

如果你发生变异，那就更糟了。它有效地做:

DT <- copy(DT)
setkey(DT, <group_cols>) ## these two are in grouped_dt
DT <- copy(DT)           ## mutate.grouped_dt copies copied data again
DT[, `:=`(...), by=<group_cols>] ## this is in mutate.grouped_dt
DT = copy(DT) ## because of another call to grouped_dt!!!
## and sets key again - which is O(n) now as DT is checked if sorted first..

同样，临时解决方案很简单:

DT   = copy(DT)
DT[, `:=`(...), by=group_cols]

它避免了 2 个副本和设置 key 。唯一的副本是为了满足 dplyr 不就地修改对象的理念。所以，这总是会更慢 + 占用 dplyr 中两倍的内存.

同样，可以避免某些连接上的副本 as I've commented here .

来自 dplyr v0.2 的新闻项目说:

dplyr is more careful when setting the keys of data tables, so it never accidentally modifies an object that it doesn't own. It also avoids unnecessary key setting which negatively affected performance. (#193, #255).

但很明显，相当多的讨论案例没有成功。

到目前为止，我在你的问题下写了关于性能标签的文章。也就是说，如果您正在寻找性能，则应该避免所有会生成(不必要的)副本(和设置 key )的情况，直到修复为止。

从本质上讲，在这种特殊情况下，我能想出的最佳答案就是调用 unique.data.table直接在 dplyr方式:

tbl_dt(little) %>% unique(.)

关于r - dplyr : row_number() from tbl_dt inconsistent to tbl_df 中的唯一行，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/23861047/

24

4

0

文章推荐： facebook-graph-api - 查看有年龄限制的页面

文章推荐： reporting-services - SSRS 在 IIF 语句中使用 DateDiff 时遇到问题

ruby-on-rails - row_number() 带有未指定的窗口 `row_number() OVER ()`
我正在使用 postgres 9.1 构建分页记分牌。用户可以根据多个标准对记分板进行排序，他们可以按升序或降序排序。有一个功能可以让用户在记分牌的多个页面中找到“他们的行”，它必须反射(refle
sql - 如何在不使用 ROW_NUMBER() 的情况下模仿 ROW_NUMBER() 功能？
我在练习中遇到了这个问题，我无法修复它，这让我发疯了......基本上我使用的是 SQLLite，所以我只能使用任何窗口函数来获得结果并且更痛苦的部分是已经创建的架构上没有唯一的 id。参见示例: *
ROW_NUMBER SQL Server 2005的LIMIT功能实现(ROW_NUMBER()排序函数)
语法： ROW_NUMBER() OVER([ <partition_by_clause>] <order_by_clause>) 备注：
Sql Server 2012 fetch 与旧 row_number 性能。我缺少什么？为什么 row_number 快 17 倍？
更新:事实上，请留下以下复杂的查询，请检查此查询。它说 Fetch 为 98%，而 Row_Number 中为 2%？ Fetch 是 SQL Server 2012 的另一个营销关键字吗？ ----
SQL row_number() - 如何忽略空值？
我需要使用以下查询向用户事件添加计数器: select PERSON_ID, TIMESTAMP, row_number() over (partition by PERSON_ID order
sql - ROW_NUMBER 查询
我有一张 table : Trip Stop Time ----------------- 1 A 1:10 1 B 1:16 1 B 1:20 1
tsql - 如何在以下过程中使用 ROW_NUMBER？
我有以下存储过程返回 A , B , 并按降序计数。我正在尝试使用 ROW_NUMBER ，所以我可以分页记录，但我想要第一行号 1成为计数最高的记录，所以基本上，如果我返回一个包含 3 条记录的表并
sql - 在交叉应用中获取最大 row_number
在我的 sql 案例中，我在计算 row_number 的最大值时遇到了麻烦。我将直接在 SQL Fiddle 示例上进行解释，因为我认为理解起来会更快:SQL Fiddle “OrderNumbe
SQL ROW_NUMBER() 性能问题
我有这个运行良好的 SQL。希望我的过滤器返回具有最高 UserSessionSequenceID 的最新唯一 SessionGuid。问题是性能很差——即使我有很好的索引。我怎样才能重写这个
sql - row_number() 分析函数的奇怪行为
希望有人可以在这里为我指明正确的方向。请参阅下面的查询。 SELECT day_id,month_id,time_id, row_number() over (partition BY month_
sql - row_number() 是否总是以同样的方式打破关系？
请问函数row_number()总是以相同的方式对相同的数据进行排序？最佳答案不可以。SQL 中的排序不稳定，这意味着不会保留原始排序顺序。不能保证解析函数或 order by将为相同的键值以相同
sql - ROW_NUMBER( ) OVER 在黑斑羚
我有一个用例，我需要在 PARTITION 上使用 ROW_NUMBER(): 就像是: SELECT Column1 , Column 2 ROW_NUMBER() OVER ( P
sql - ORDER BY ROW_NUMBER
UPD:谢谢大家，话题结束， sleep 后我明白了一切=) 我在理解 OVER 子句和 ROW_NUMBER 函数时遇到问题。简单的表 - 名称和标记。我想计算每个名字的平均分数。 SELECT t
sql - 取决于条件的 Row_number()
我有一个包含零的列和一个保留顺序的列，其中零表示数据片段之间的中断。这是例子 A Ord 1 1 1 2 0 3 0 4 0 5 1 6 1 7 1 8 0 9 1 10 我想要获得的是同一列，其中零
tsql - 使用日期索引优化 ROW_NUMBER()
我有这个简单的查询，希望它是不言自明的。 SELECT ROW_NUMBER() OVER (PARTITION BY Price_Id ORDER BY date DESC) r, * FROM
sql - ROW_NUMBER() 执行计划
请考虑此查询: SELECT num, * FROM ( SELECT OrderID, CustomerID, EmployeeID, OrderDate, Required
sql - ROW_NUMBER() 性能优化
首先，我想提一下，我已经检查了所有其他提出的问题，没有一个与我的相似，所以我不认为它是重复的。我有两个表格，“Article_tbl”到目前为止已超过 300,000 行，“ArticleZone_
azure - Row_number() 或应用程序见解中可能的其他分析函数？
我有一个非常简单的问题，但我正在使用 appInsights，并且似乎无法弄清楚如何在 aiql 或任何函数中复制 row_number() 函数(没有分区意义)。我有综合浏览量表，我按 sessi
SQL ROW_NUMBER 和排序问题
在 SQL 2005/2008 数据库中，我们有表 BatchMaster。列:RecordId bigint - 自动增量 id，BatchNumber bigint - 唯一非聚集索引，Batch
sql - row_number() 如何工作？
我正在搜索删除表中的重复条目，我看到了如下示例: CREATE TABLE Suppliers ( Id int identity (1,1), CompanyTitle nvarchar(1

首页

博学

6Ren·AI

商城

r - dplyr : row_number() from tbl_dt inconsistent to tbl_df 中的唯一行