r - 如何在不使用两个 for 循环的情况下填充我的 data.table？-6ren

r - 如何在不使用两个 for 循环的情况下填充我的 data.table？

转载作者：行者123 更新时间：2023-12-04 12:01:29

25

4

我无法在任何地方找到答案，我可能没有找到正确的搜索词，或者无法将问题转移给我。

所以我希望这里有人能够帮助我。

我有一个以下形式的 data.table dt1(我尽量保持简短，但需要包括所有可能性):

ID  session
101  1
101  1
101  2
101  4
102  2
102  4
102  5
103  1
103  4
201  1
201  4
201  5
202  1
202  2
203  1
204  5

重现代码:

dt1 <- data.table(ID=c(101, 101, 101, 101, 102, 102, 102, 103, 103, 201, 201, 201, 202, 202, 203, 204), session=c(1, 1, 2, 4, 2, 4, 5, 1, 4, 1, 4, 5, 1, 2, 1, 5))

第一步我想要的是表单中的 data.table，当输入 data.frame 中有一个条目时，每个 session 都有一个 1，否则为 0。

ID  1   2   3   4   5
101 1   1   0   1   0
102 0   1   0   1   1
103 1   0   0   1   0
201 1   0   0   1   1
202 1   1   0   0   0
203 1   0   0   0   0
204 0   0   0   0   1

现在，我正在生成两个列表，

IDs <- sort(unique(dt1$ID))
sessions <- unique(dt1$session)

带有 ncol=length(sessions) 和 nrow=length(IDs) 的空数据表 dt2， session 作为列名字

dt2 <- data.table(matrix(ncol=length(sessions), nrow=length(IDs)))
colnames(dt2) <- as.character(unique(dt1$session))

以及每个 ID 的 session 列表。

sesID <- split(dt1$session, dt1$ID)

然后我用两个 for 循环遍历列表。

for (i in 1:nrow(dt2)) {
 for (j in 1:length(dt2)) {
  if (sessions[j] %in% sesID[i]) {
    set(dt2, i, j, 1)s
  }
  else {
    set(dt2, i, j, 0)
  } } }

作为第二步，如果 session 位于 1 的 session 之间，我想将所有 0 更改为 1。

ID  1   2   3   4   5
101 1   1   1   1   0
102 0   1   1   1   1
103 1   1   1   1   0
201 1   0   0   1   1
202 1   1   0   0   0
203 1   0   0   0   0
204 0   0   0   0   1

我正在使用另外两个 for 循环执行此操作。

for (i in 1:nrow(dt2)) {
 trues <- which(dt2[i,]==1)
 headTrues <- head(trues, 1)
 tailTrues <- tail(trues, 1)
 for (j in 1:length(dt2)){
  if (j > headTrues & j < tailTrues & headTrues <= tailTrues){
    set(dt2, i, j, 1)
} } }

因为这会为我生成一个带有 TRUE 和 FALSE 的 data.table dt3，我之后会替换它们。

(to.replace <- names(which(sapply(dt3, is.logical)))) 
for (var in to.replace) dt3[, var:= as.numeric(get(var)), with=FALSE]

为了将 ID 保留为一列，我随后添加了它们。

dt3$ID <- IDs

如果我没有大约 12000 个唯一 ID 并且需要运行几千次，那就没问题了。我很确定在 R 中有更好的方法可以做到这一点。我只是现在还没有。

非常感谢您。

最佳答案

使用:

# create a reference data.table which includes also 'session 3'
ref <- CJ(ID = dt1$ID, session = min(dt1$session):max(dt1$session), unique = TRUE)
# join 'ref' with 'dt1' and create a new variable that has NA's
# for values that don't exist in 'dt1$session'
ref[dt1, on = c('ID','session'), ses2 := i.session]

# summarise to create a dummy and reshape to wide format with the 'dcast'-function
dcast(ref[, sum(!is.na(ses2)), .(ID,session)], 
      ID ~ session, value.var = 'V1')

你得到:

    ID 1 2 3 4 5
1: 101 1 1 0 1 0
2: 102 0 1 0 1 1
3: 103 1 0 0 1 0
4: 201 1 0 0 1 1
5: 202 1 1 0 0 0
6: 203 1 0 0 0 0
7: 204 0 0 0 0 1

替代方案(@Frank 在评论中提出):

dt1[, session := factor(session, levels=1:5)]
dcast(dt1, ID ~ session, fun = function(x) sign(length(x)), drop = FALSE)

这会给你相同的结果。

如果要在 1 之间填充零，可以使用 shift 函数来检查前后值是否等于 1:

dcast(ref[, sum(!is.na(ses2)), .(ID,session)
          ][shift(V1,1,0,'lag')==1 & shift(V1,1,0,'lead')==1, V1 := 1L, ID],
      ID ~ session, value.var = 'V1')

你会得到:

    ID 1 2 3 4 5
1: 101 1 1 1 1 0
2: 102 0 1 1 1 1
3: 103 1 0 0 1 1
4: 201 1 0 0 1 1
5: 202 1 1 0 0 0
6: 203 1 0 0 0 0
7: 204 0 0 0 0 1

作为对您评论的回应，要替换 1 之间的所有零，您可以结合使用 rle 和 inverse.rle 函数:

dt2 <- unique(dt1)[, val := 1
                   ][CJ(ID = ID, session = min(session):max(session), unique = TRUE), on = c('ID','session')
                     ][is.na(val), val := 0
                       ][, val := {rl <- rle(val);
                                   rl$values[rl$values==0 & shift(rl$values,fill=0)==1 & shift(rl$values,fill=0,type='lead')==1] <- 1;
                                   inverse.rle(rl)},
                         ID]

dcast(dt2, ID ~ session, value.var = 'val')

这给出:

    ID 1 2 3 4 5
1: 101 1 1 1 1 0
2: 102 0 1 1 1 1
3: 103 1 1 1 1 0
4: 201 1 1 1 1 1
5: 202 1 1 0 0 0
6: 203 1 0 0 0 0
7: 204 0 0 0 0 1

或者(@Frank 的想法):

ref[, v := 0L]
ref[dt1[, .(first(session), last(session)), by=ID], on=.(ID, session >= V1, session <= V2), 
  v := 1L ]
dcast(ref, ID ~ session)

当数据集中存在所有不同的 session 编号时，您还可以使用嵌套的 dcast/melt 方法作为交叉连接方法的替代方法(使用关于速度和内存效率，以前的交叉连接方法 (CJ) 更可取。

新示例数据集:

DT <- data.table(ID=c(101, 101, 101, 101, 102, 102, 102, 103, 103, 201, 201, 201, 202, 202, 203, 204), 
                 session=c(1, 2, 3, 4, 2, 4, 5, 1, 4, 1, 4, 5, 1, 2, 1, 5))

代码:

dcast(melt(dcast(DT[, val := 1], 
                 ID ~ session,
                 value.var = 'val',
                 fill = 0), 
           id = 'ID')[, value := {rl <- rle(value);
           rl[[2]][rl[[2]]==0 & shift(rl[[2]],1,0)==1 & shift(rl[[2]],1,0,'lead')==1] <- 1;
           inverse.rle(rl)},
           ID],
      ID ~ variable, value.var = 'value')

这给出:

    ID 1 2 3 4 5
1: 101 1 1 1 1 0
2: 102 0 1 1 1 1
3: 103 1 1 1 1 0
4: 201 1 1 1 1 1
5: 202 1 1 0 0 0
6: 203 1 0 0 0 0
7: 204 0 0 0 0 1

关于r - 如何在不使用两个 for 循环的情况下填充我的 data.table？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/43226300/

25

4

0

文章推荐： r - 如何在 r 中实现 histfit？

文章推荐： macos - 苹果文字；在 N 号空间打开应用程序

文章推荐： pygtk - catch 关闭gtk.window

文章推荐： r - 查找经理经理 ID 的有效方法

java - 在具有多个条件的 If 情况下，我们能否获得条件失败的确切位置？
我是 Java 新手，这是我的代码， if( a.name == b.name && a.displayname == b.displayname && a.linknam
javascript - 在下面的 JavaScript 情况下，如何避免重复自己的情况？
在下面的场景中，我有一个 bool 值。根据结果，我调用完全相同的函数，唯一的区别是参数的数量。 var myBoolean = ... if (myBoolean) { retrieve
c++ - 异常(exception)情况下，我想在没有任何堆栈展开的情况下进行调试
我是一名研究 C++ 的 C 开发人员: 我是否正确理解如果我抛出异常然后堆栈将展开直到找到第一个异常处理程序？是否可以在不展开的情况下在任何 throw 上打开调试器(即不离开声明它的范围或任何更高
c++ - 在什么情况/情况下 dynamic_cast<> 会失败？
在修复庞大代码库中的错误时，我观察到一个奇怪的情况，其中引用的动态类型从原始 Derived 类型更改为 Base 类型!我提供了最少的代码来解释问题: struct Base { // some
c# for 循环在 switch/case 情况下 - 如何？
我正在尝试用 C# 扩展给定的代码，但由于缺乏编程经验，我有点陷入困境。使用 Visual Studio 社区，我尝试通过控制台读出 CPU 核心温度。该代码使用开关/外壳来查找传感器的特定名称(即
javascript - 在 AJAX 情况下，如何在目标页面评估 JavaScript？
这可能是一个哲学问题。假设您正在向页面发出 AJAX 请求(这是使用 Prototype): new Ajax.Request('target.asp', { method:"post", pa
html - 在 Usemap/area 情况下，光标未更改为指针
我有以下 HTML 代码，我无法在所有浏览器中正常工作: 我试图在移动到
swift - 在这种 Firebase 情况下，如何在函数之间传递数据？ swift + Xcode
我对 Swift 很陌生。我如何从 addPin 函数中检索注释并能够在我的 addLocation 操作 (buttonPressed) 中使用它。我正在尝试使用压力触摸在 map 上添加图钉，在两
ios - 在 iPad DetailView 情况下，viewDidUnload 未被调用
我设置了一个详细 View ，我是否有几个 Nib 文件根据在 Root View Controller 的表中选择的项目来加载。我发现，对于 Nibs 的类，永远不会调用 viewDidUnloa
javascript - 在这种 javascript 情况下，除了 eval 之外还有其他选择吗？
我需要动态访问 json 文件并使用以下代码。在本例中，“bpicsel”和“temp”是变量。最终结果类似于“data[0].extit1” var title="data["+bpicsel+"]
c# - 在 HTTPS 情况下，服务器证书未使用 HTTP.SYS 正确配置
我需要使用第三方 WCF 服务。我已经在我的证书存储中配置了所需的证书，但是在调用 WCF 服务时出现以下异常。向 https://XXXX.com/AHSharedServices/Custome
postgresql - 即使在 ON CONFLICT DO NOTHING 情况下，postgres INSERT 触发器也会触发
在几个 SO 答案(1、2)中，建议如果存在冲突则不应触发 INSERT 触发器，ON CONFLICT DO NOTHING 在触发语句中。也许我理解错了，但在我的实验中似乎并非如此。这是我的 S
java - 在 Hibernate3 中的 saveOrUpdateAll 情况下，具有相同标识符值的不同对象已与 session 关联
如果进行修改，则会给出org.hibernate.NonUniqueObjectException。在我的 BidderBO 类(class)中 @Override @Transactional(pr
javascript - 为什么 React App 的 redux 情况下 IndexOf(Object) 可以工作？
我使用 indexOf() 方法来精细地查找数组中的对象。直到此刻我查了一些资料，发现代码应该无法正常工作。我在reducer中尝试了上面的代码，它成功了 let tmp = state.find
mysql - 在指定了 ORDER BY 和 LIMIT 并且实际上只需要连接少量行的 JOIN 情况下，MySQL 的行为如何？
假设我有以下表格: CREATE TABLE Game ( GameID INT UNSIGNED NOT NULL, GameType TINYINT UNSIGNED NOT NU
ios - 在使用 swift ios 的某些 URL 情况下，Alamofire 进度状态显示 0.0
代码: Alamofire.request(URL(string: imageUrl)!).downloadProgress(closure: { (progress) in

首页

博学

6Ren·AI

商城

r - 如何在不使用两个 for 循环的情况下填充我的 data.table？