gpt4 book ai didi

使用 data.table 重新编码变量

转载 作者:行者123 更新时间:2023-12-02 01:15:06 25 4
gpt4 key购买 nike

我正在尝试使用 data.table 重新编码变量。我用 Google 搜索了近 2 个小时,但找不到答案。

假设我有一个 data.table 如下:

DT <- data.table(V1=c(0L,1L,2L),
V2=LETTERS[1:3],
V4=1:12)

我想重新编码 V1 和 V2。对于 V1,我想将 1 重新编码为 0,将 2 重新编码为 1。对于V2,我想将A重新编码为T,B重新编码为K,C重新编码为D。

如果我使用dplyr,那就很简单。

library(dplyr)
DT %>%
mutate(V1 = recode(V1, `1` = 0L, `2` = 1L)) %>%
mutate(V2 = recode(V2, A = "T", B = "K", C = "D"))

但我不知道如何在 data.table 中执行此操作

DT[V1==1, V1 := 0]
DT[V1==2, V1 := 1]
DT[V2=="A", V2 := "T"]
DT[V2=="B", V2 := "K"]
DT[V2=="C", V2 := "D"]

以上是我认为最好的代码。但必须有更好、更有效的方法来做到这一点。

<小时/>

编辑

我改变了重新编码 V2 的方式,以使我的示例更加通用。

最佳答案

data.table重新编码可以通过加入更新来解决:

DT[.(V1 = 1:2, to = 0:1), on = "V1", V1 := i.to]
DT[.(V2 = LETTERS[1:3], to = c("T", "K", "D")), on = "V2", V2 := i.to]

转换 DT

    V1 V2 V4
1: 0 T 1
2: 0 K 2
3: 1 D 3
4: 0 T 4
5: 0 K 5
6: 1 D 6
7: 0 T 7
8: 0 K 8
9: 1 D 9
10: 0 T 10
11: 0 K 11
12: 1 D 12

编辑:@Frank 建议使用 i.to为了安全起见。

说明

表达式.(V1 = 1:2, to = 0:1).(V2 = LETTERS[1:3], to = c("T", "K", "D")) ,分别创建查找表即时

或者,可以预先设置查找表

lut1 <- data.table(V1 = 1:2, to = 0:1)
lut2 <- data.table(V2 = LETTERS[1:3], to = c("T", "K", "D"))

lut1
   V1 to
1: 1 0
2: 2 1
lut2
   V2 to
1: A T
2: B K
3: C D

然后,更新连接变成

DT[lut1, on = "V1", V1 := i.to]
DT[lut2, on = "V2", V2 := i.to]

编辑 2:回答如何动态使用此代码?

mat asked如何动态使用此代码?

因此,这是一个修改版本,其中要更新的列名称作为字符变量 my_var_name 提供。但查找表仍然是即时创建的:

my_var_name <- "V1"
DT[.(from = 1:2, to = 0:1), on = paste0(my_var_name, "==from"),
(my_var_name) := i.to]
my_var_name <- "V2"
DT[.(from = LETTERS[1:3], to = c("T", "K", "D")), on = paste0(my_var_name, "==from"),
(my_var_name) := i.to]

有3点需要注意:

  1. 它不是动态命名查找表的第一列,而是获得固定名称 from 。这需要不同命名的列之间的联接(外键联接)。必须通过 on 指定要连接的列的名称。参数。
  2. on参数接受格式为 "V1==from"外键连接字符串。 。该字符串是使用 paste0() 动态创建的.
  3. 在表达式 (my_var_name) := i.to 中,变量 my_var_name 两边的括号强制使用 my_var_name 的内容.

使用预定义查找表的动态代码

现在,虽然要重新编码的列是由变量动态指定的,但要使用的查找表在语句中仍然是硬编码的,这意味着我们已经中途停止了:我们还需要选择动态适当的查找表。

这可以通过将查找表存储在列表中来实现,其中每个列表元素根据 DT 列命名。它应该重新编码:

 lut_list  <- list(
V1 = data.table(from = 1:2, to = 0:1),
V2 = data.table(from = LETTERS[1:3], to = c("T", "K", "D"))
)
lut_list
$V1
from to
<int> <int>
1: 1 0
2: 2 1

$V2
from to
<char> <char>
1: A T
2: B K
3: C D

现在,我们也可以从列表中动态选择适当的查找表:

my_var_name <- "V1"
DT[lut_list[[my_var_name]], on = paste0(my_var_name, "==from"),
(my_var_name) := i.to]

更进一步,我们可以重新编码 DT所有相关列。在循环中:

for (v in intersect(names(lut_list), colnames(DT))) {
DT[lut_list[[v]], on = paste0(v, "==from"), (v) := i.to]
}

请注意DT 通过引用更新,即,仅就地替换受影响的元素,而不复制整个对象。所以,for循环迭代地应用于同一数据对象。这是的特长并且不适用于 data.frames 或 tibbles。

关于使用 data.table 重新编码变量,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44590935/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com