- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
英文缩写:
我想知道如何从 data.table
中获取唯一的行在某处沿着 dplyr
工作流程。从 v0.2 开始,我可以使用 row_number==1
(见:Remove duplicated rows using dplyr)
但!tbl_df(data) %>% group_by(Var1,Var2) %>% filter(row_number() == 1)
作品。tbl_dt(data) %>% group_by(Var1,Var2) %>% filter(row_number() == 1)
没有。 这是一个错误吗?
设置:
library(dplyr)
library(data.table)
library(microbenchmark)
little <- expand.grid(rep(letters,121),rep(letters,121)) # my 10M row dataset.
tbl_dt(little) %>% group_by(Var1,Var2) %>% filter(row_number() == 1)
> Error in rank(x, ties.method = "first") :
> argument "x" is missing, with no default
unique.data.table
方法:
dt_u <- function() {
tbl_dt(little) %>%
group_by(Var1,Var2) %>%
unique(.) %>%
tbl_dt(.) }
summarise
然后
select
离开新上校:
dt_ss <- function() {
tbl_dt(little) %>%
group_by(Var1,Var2) %>%
summarise( n = n() ) %>%
select( -(n) ) }
row_number() == 1
# 不适用于 tbl_dt!
dt_rn <- function() {
tbl_dt(little) %>%
group_by(Var1,Var2) %>%
filter( row_number() == 1 ) }
tbl_df()
等价物。
microbenchmark(...,times=20)
:
> Unit: milliseconds
> expr min lq median uq max neval
> dt_ss() 579.0385 618.0002 661.9056 694.0705 764.2221 20
> dt_u() 690.1284 729.8723 756.5505 783.7379 897.4799 20
> df_ss() 419.7841 436.9871 448.1717 461.7023 523.2798 20
> df_u() 3971.1699 4044.3663 4097.9848 4168.3468 4245.8346 20
> df_rn() 646.1497 687.3472 711.3924 724.6235 754.3166 20
最佳答案
有趣的。你的基准测试激起了我的兴趣。我觉得你不和 data.table
比较有点奇怪的 unique.data.table
直接地。因此,这是将其也包含在我的系统中的结果。
# extra function with which the benchmark shown below was run
dt_direct <- function() unique(dt) # where dt = as.data.table(little)
# Unit: milliseconds
# expr min lq median uq max neval
# dt_u() 1472.2460 1571.0871 1664.0476 1742.5184 2647.2118 20
# df_u() 6084.2877 6303.9058 6490.1686 6844.8767 7370.3322 20
# dt_ss() 1340.8479 1485.4064 1552.8756 1586.6706 1810.2979 20
# df_ss() 799.5289 835.8599 884.6501 957.2208 1251.5994 20
# df_rn() 1410.0145 1576.2033 1660.1124 1770.2645 2442.7578 20
# dt_direct() 452.6010 463.6116 486.5015 568.0451 670.3673 20
val = paste0("V", 1:100)
little <- data.frame(Var1=sample(val, 1e7, TRUE), Var2=sample(val, 1e7, TRUE))
dt <- as.data.table(little)
# Unit: milliseconds
# expr min lq median uq max neval
# dt_u() 1709.458 1776.3510 1892.7761 1991.6339 2562.9171 20
# df_u() 7541.364 7735.4725 7981.3483 8462.9093 9552.8629 20
# dt_ss() 1555.110 1627.6519 1791.5219 1911.3594 2299.2864 20
# df_ss() 1436.355 1500.1043 1528.1319 1649.3043 1961.9945 20
# df_rn() 2001.396 2189.5164 2393.8861 2550.2198 3047.7019 20
# dt_direct() 508.596 525.7299 577.6982 674.2288 893.2116 20
Note: I don't time the creation of
dt
here because, in real use cases, you can either usefread
to get a data.table directly, or usesetDT
to convert adata.table
by reference or directly usedata.table(.)
instead ofdata.fame(.)
- which is not timed as well.
dt_u
和
dt_ss
那么慢吗?
grouped-dt.r
和
manip-grouped-dt.r
,这是由于 1) 副本和 2) 设置键而发生的。 (1)基本上是因为不得不做(2)。如果您使用
dplyr
进行汇总操作,它等价于:
DT <- copy(DT);
setkey(DT, <group_cols> ## these two are in grouped_dt
DT[, j, by=<group_cols>] ## this is in summarise.grouped_dt
DT <- copy(DT) ## because it calls grouped_dt AGAIN!
## and sets key again - which is O(n) now as DT checked if sorted first..
## equivalent ad-hoc by
DT[, j, by=<group_cols] ## no copy, no setkey
DT <- copy(DT)
setkey(DT, <group_cols>) ## these two are in grouped_dt
DT <- copy(DT) ## mutate.grouped_dt copies copied data again
DT[, `:=`(...), by=<group_cols>] ## this is in mutate.grouped_dt
DT = copy(DT) ## because of another call to grouped_dt!!!
## and sets key again - which is O(n) now as DT is checked if sorted first..
DT = copy(DT)
DT[, `:=`(...), by=group_cols]
dplyr
中两倍的内存.
dplyr v0.2
的新闻项目说:
- dplyr is more careful when setting the keys of data tables, so it never accidentally modifies an object that it doesn't own. It also avoids unnecessary key setting which negatively affected performance. (#193, #255).
unique.data.table
直接在
dplyr
方式:
tbl_dt(little) %>% unique(.)
关于r - dplyr : row_number() from tbl_dt inconsistent to tbl_df 中的唯一行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23861047/
我正在使用 postgres 9.1 构建分页记分牌。 用户可以根据多个标准对记分板进行排序,他们可以按升序或降序排序。有一个功能可以让用户在记分牌的多个页面中找到“他们的行”,它必须反射(refle
我在练习中遇到了这个问题,我无法修复它,这让我发疯了......基本上我使用的是 SQLLite,所以我只能使用任何窗口函数来获得结果并且更痛苦的部分是已经创建的架构上没有唯一的 id。参见示例: *
语法: ROW_NUMBER() OVER([ <partition_by_clause>] <order_by_clause>) 备注: 
更新:事实上,请留下以下复杂的查询,请检查此查询。它说 Fetch 为 98%,而 Row_Number 中为 2%? Fetch 是 SQL Server 2012 的另一个营销关键字吗? ----
我需要使用以下查询向用户事件添加计数器: select PERSON_ID, TIMESTAMP, row_number() over (partition by PERSON_ID order
我有一张 table : Trip Stop Time ----------------- 1 A 1:10 1 B 1:16 1 B 1:20 1
我有以下存储过程返回 A , B , 并按降序计数。我正在尝试使用 ROW_NUMBER ,所以我可以分页记录,但我想要第一行号 1成为计数最高的记录,所以基本上,如果我返回一个包含 3 条记录的表并
在我的 sql 案例中,我在计算 row_number 的最大值时遇到了麻烦。 我将直接在 SQL Fiddle 示例上进行解释,因为我认为理解起来会更快:SQL Fiddle “OrderNumbe
我有这个运行良好的 SQL。 希望我的过滤器返回具有最高 UserSessionSequenceID 的最新唯一 SessionGuid。 问题是性能很差——即使我有很好的索引。 我怎样才能重写这个
希望有人可以在这里为我指明正确的方向。 请参阅下面的查询。 SELECT day_id,month_id,time_id, row_number() over (partition BY month_
请问函数row_number()总是以相同的方式对相同的数据进行排序? 最佳答案 不可以。SQL 中的排序不稳定,这意味着不会保留原始排序顺序。不能保证解析函数或 order by将为相同的键值以相同
我有一个用例,我需要在 PARTITION 上使用 ROW_NUMBER(): 就像是: SELECT Column1 , Column 2 ROW_NUMBER() OVER ( P
UPD:谢谢大家,话题结束, sleep 后我明白了一切=) 我在理解 OVER 子句和 ROW_NUMBER 函数时遇到问题。简单的表 - 名称和标记。我想计算每个名字的平均分数。 SELECT t
我有一个包含零的列和一个保留顺序的列,其中零表示数据片段之间的中断。这是例子 A Ord 1 1 1 2 0 3 0 4 0 5 1 6 1 7 1 8 0 9 1 10 我想要获得的是同一列,其中零
我有这个简单的查询,希望它是不言自明的。 SELECT ROW_NUMBER() OVER (PARTITION BY Price_Id ORDER BY date DESC) r, * FROM
请考虑此查询: SELECT num, * FROM ( SELECT OrderID, CustomerID, EmployeeID, OrderDate, Required
首先,我想提一下,我已经检查了所有其他提出的问题,没有一个与我的相似,所以我不认为它是重复的。 我有两个表格,“Article_tbl”到目前为止已超过 300,000 行,“ArticleZone_
我有一个非常简单的问题,但我正在使用 appInsights,并且似乎无法弄清楚如何在 aiql 或任何函数中复制 row_number() 函数(没有分区意义)。 我有综合浏览量表,我按 sessi
在 SQL 2005/2008 数据库中,我们有表 BatchMaster。列:RecordId bigint - 自动增量 id,BatchNumber bigint - 唯一非聚集索引,Batch
我正在搜索删除表中的重复条目,我看到了如下示例: CREATE TABLE Suppliers ( Id int identity (1,1), CompanyTitle nvarchar(1
我是一名优秀的程序员,十分优秀!