r data.table : two questions about 'by' ((1)=. I 和 (2) ='order by' )-6ren

r data.table : two questions about 'by' ((1)=. I 和 (2) ='order by' )

转载作者：行者123 更新时间：2023-12-04 02:20:02

24

4

我有两个关于包 data.table 中的“by”的问题。

1) 如何将 .I 与它一起使用？例如，假设我们有用户在一天中的特定时间进入商店，我想要一个变量告诉我“我们看到这个用户的时间是多少？”......即

> library(data.table)
> dt = data.table(visitorId = c(1,2,1,2,1), daytime=c(1,4,7,9,11))
> dt
       visitorId daytime
1:         1        1
2:         2        4
3:         1        7
4:         2        9
5:         1       11

所需的解决方案将产生

       visitorId daytime  howOftenHaveYouBeenHere
1:         1        1              1
2:         2        4              1
3:         1        7              2
4:         2        9              2
5:         1       11              3

现在我玩弄了 data.table 的 .I 并没有给我想要的东西: .I (:-) 抱歉，无法抗拒)期望工作的东西是 dt = dt[, howOftenHaveYouBeenHere := .I, by=visitorId] 但这给出了

       visitorId daytime  howOftenHaveYouBeenHere
1:         1        1              1
2:         2        4              1
3:         1        7              2
4:         2        9              2
5:         1       11              1 <---- not a 3 here!!!

我让它工作使用

dt = dt[, stupid := 1]
dt = dt[, session := cumsum(stupid), by=visitorId]; print(dt)

但是这样做感觉不太好……

2) 如何确保 data.table 按“时间”对 session 进行计数，即直到现在我都是这样做的

a) 相应地对表进行排序

b) 执行'by'语句

这是正确的方法还是可以在某处“走私”SQL 的“ORDER BY”？

例如:如果我们把上面的数据表倒过来dt = data.table(visitorId = c(1,2,1,2,1), daytime=c(11,9,7,4,1))然后

dt = dt[, stupid := 1]
dt = dt[, session := cumsum(stupid), by=visitorId]; print(dt)

没有给出想要的结果。我们可以像这样修复它:

dt = data.table(visitorId = c(1,2,2,1,1), dayTime=c(11,9,4,7,1))
dt = dt[order(dayTime, decreasing=FALSE)]
dt = dt[, stupid := 1]
dt = dt[, howOftenHaveYouBeenHere := cumsum(stupid), by=visitorId]

但是有没有“正确”的方法呢？ IE。是否保证在执行 by-statement 时顺序保持不变？

谢谢:-)

最佳答案

.I 是整个表中的计数器——而不是按组。我们需要构建一个组内计数器:

dt[, seqobs := seq_along(.I), by=visitorId]
# or...
dt[, seqobs := seq_len(.N), by=visitorId]
# or...
dt[, seqobs := 1:.N, by=visitorId]

#    visitorId daytime seqobs
# 1:         1       1      1
# 2:         2       4      1
# 3:         1       7      2
# 4:         2       9      2
# 5:         1      11      3

这比初始化一列 1 并求和更容易。

为了使数据有意义，需要在每个组内按 daytime 对数据进行排序。如果不是...

# example of an out-of-order table
dt2 <- dt[sample(.N)]

dt2[order(daytime), seqobs := seq(.N), by=visitorId]

顺便说一句，如果你想改变一个data.table的顺序，使用setorder函数。

(在data.table包的下一个版本，1.9.8，会有一个小快捷方式dt[, seqobs := rowidv(visitorId)]。我做这个笔记是这样的我可以稍后更新答案。)

关于r data.table : two questions about 'by' ((1)=. I 和 (2) ='order by' )，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/31187364/

24

4

0

文章推荐： amazon-web-services - 如何在 EB CLI 中更改用户？

文章推荐： objective-c - NSString 发布

文章推荐： validation - 如何在表单验证失败时提供我选择的消息

文章推荐： jsf - 如何计算p :dataTable Primefaces?中的行数

javascript - Alexa 技能 : Works for the first question but not the second question
Alexa 技能适用于第一个问题，但不适用于第二个问题。这是一个使用以下数组的困惑字母测验 var arr = [{"Q":"dcha","A":"chad"},{"Q":"goto","A":"to
ios - 可选类型 'Question?' 的值必须解包以引用已包装的基本类型 'questionText' 的成员 'Question'
我正在制作一个小问答 ios 应用程序。我希望第一个问题是随机的。我的代码如下。 let allQuestions = QuestionBank() var pickedAnswer : Bool =
dialogflow-es - Dialogflow 实现 : Breaking multiple choice questions into single questions
我对 Dialogflow 比较陌生，我正在尝试创建一个医疗保健诊断语音聊天机器人，其工作方式如下。用户体验用户调用系统并受到聊天机器人的欢迎。聊天机器人开始询问与分流相关的问题(例如，“您有慢
javascript - meteor 错误调用方法 ['questions.insert]: Method ' questions.insert' not found
我正在尝试将一个表单(包含测试问题)提交到一个名为 Questions 的 mongo 集合中。我已经引用了运行服务器端代码的文件，我认为它应该都可以正常工作。这是我的代码: //add.html
json - 类型 'Future>' 的值不能分配给类型 'List' 的变量
import 'dart:async'; import 'question.dart'; import 'package:http/http.dart' as http; import 'dart:c
序言 : Simple question
我想添加用户输入到列表中的任何字符串 run :- write('How many students you have: '),read(x),nl. enterNameOfStuden
Java : Thread Questions
我正在努力提高我的 JAVA 水平。现在我有一个关于线程的问题我不明白。我尝试的代码是这样的， public class MyThread implements Runnable { pri
C# ？？结合？ : question
我正在为一个项目构建一个 XML 反序列化器，我经常遇到这种类型的代码情况: var myVariable = ParseNDecimal(xml.Element("myElement")) == n
JavaEE : Question about design
我有一个 JSF 页面，它将创建一个新的 Comment。我将该页面的托管 bean 设为 RequestScoped 托管 bean。 @ManagedBean(name="PostComment"
MySQL : query question
房间和应用程序之间存在一对一的关系，意味着应用程序必须占用一个房间。如果我想获取未被应用占用的房间，如何写sql查询最佳答案 select * from room r where not exist
CSS : layout Question
我有一个 css 布局，其中我有一个单页网站问题是我不想要滚动条所以我确实隐藏了溢出并且它工作正常但是当有不同的屏幕分辨率时，所以底部的内容被切断有没有办法解决这个问题我的意思是，当内容适合首页时
整数转二进制: questions about efficiency的Python算法
我做了一个简单的算法，用于将整数转换为二进制，并将二进制作为字符串返回。目前，这些位被添加到列表的前面。在每一步连接字符串而不是附加到列表会更有效(就时间或空间而言)吗？为什么/为什么不？ def t
sql - MongoDB : few questions
我经常听说 mongodb 可以在一个集合级别执行原子性。您知道为什么以及如何将其与分片联系起来吗？ replication 和 replicasets 之间的唯一区别是两者都是主/从(主要/次要)，
linux - 线程 : some questions
我有几个关于线程的问题。能否请您澄清一下。假设进程有一个或多个线程。如果进程被抢占/挂起，线程是否也被抢占或线程是否继续运行？当挂起的进程被重新调度时，进程线程是否也被调度了？如果进程有进程有多个
Java 单例设计模式 : Questions
我最近接受了一次采访，他问我单例设计模式是如何实现的，我告诉他使用静态变量和静态方法我们可以实现单例设计模式。他似乎对答案满意但我想知道我们可以有多少种不同的方式实现单例设计模式在 Java 中？
ruby-on-rails - has_many :through questions
我以前使用 has_and_belongs_to_many，并已转换为 has_many :through。下面是它如何查找可以有很多用户玩的游戏列表。有了这个，我可以做 game.users 和 u
typescript : question mark on array
这是我的代码的骨架: var myArray: (Array | null); if (cnd) { myArray = []; myArray?.push(elt); // Question
perl - 奥莱特 : Unicode-question
使用ORLite时放置sqlite_unicode设置的正确位置在哪里？最佳答案不幸的是，没有一个真正好的地方。请参阅bug #61191: Enable sqllite_unicode in t
Perl-SQLite3 : Basic Question
我承认我已经有一段时间没有使用 Perl 了，但这让我很难过。这是问题: #!/usr/bin/perl use CGI::Carp qw(fatalsToBrowser); use DBI; pr
django - “Questions”对象不可迭代 Django
我有一个名为 Question 的模型。模型允许用户创建新问题。我正在尝试使用对象查询集填充多个表单。当我尝试使用查询集进行初始化时，会出现问题。我收到此错误 'Question' object i

首页

博学

6Ren·AI

商城

r data.table : two questions about 'by' ((1)=. I 和 (2) ='order by' )