r - 如何使用 data.table 高效地创建新变量并分配列名？-6ren

r - 如何使用 data.table 高效地创建新变量并分配列名？

转载作者：行者123 更新时间：2023-12-02 17:57:41

27

4

我需要根据如下数据计算新列:

structure(list(english_score = c(3L, 4L, 3L, 3L, 4L, 3L, 4L, 
2L, 4L, 2L, 3L, 3L, 2L, 2L, 3L, 4L, 3L, 3L, 4L, 3L, 4L, 3L, 2L
), math_score = c(4L, 4L, 3L, 4L, 4L, 4L, 3L, 2L, 3L, 3L, 4L, 
2L, 4L, 2L, 4L, 2L, 3L, 3L, 2L, 2L, 2L, 4L, 2L), science_score = c(3L, 
4L, 4L, 4L, 3L, 4L, 4L, 3L, 3L, 2L, 3L, 4L, 4L, 4L, 4L, 4L, 4L, 
2L, 3L, 2L, 3L, 3L, 4L)), row.names = c(NA, -23L), class = c("data.table", 
"data.frame"), .internal.selfref = <pointer: 0x000002478ee34d50>)

我想制作这样的东西:

structure(list(english_score = c(3L, 4L, 3L, 3L, 4L, 3L, 4L, 
2L, 4L, 2L, 3L, 3L, 2L, 2L, 3L, 4L, 3L, 3L, 4L, 3L, 4L, 3L, 2L
), math_score = c(4L, 4L, 3L, 4L, 4L, 4L, 3L, 2L, 3L, 3L, 4L, 
2L, 4L, 2L, 4L, 2L, 3L, 3L, 2L, 2L, 2L, 4L, 2L), science_score = c(3L, 
4L, 4L, 4L, 3L, 4L, 4L, 3L, 3L, 2L, 3L, 4L, 4L, 4L, 4L, 4L, 4L, 
2L, 3L, 2L, 3L, 3L, 4L), english_level = c("Level C", "Level D", 
"Level C", "Level C", "Level D", "Level C", "Level D", "Level B", 
"Level D", "Level B", "Level C", "Level C", "Level B", "Level B", 
"Level C", "Level D", "Level C", "Level C", "Level D", "Level C", 
"Level D", "Level C", "Level B"), math_level = c("Level D", "Level D", 
"Level C", "Level D", "Level D", "Level D", "Level C", "Level B", 
"Level C", "Level C", "Level D", "Level B", "Level D", "Level B", 
"Level D", "Level B", "Level C", "Level C", "Level B", "Level B", 
"Level B", "Level D", "Level B"), science_level = c("Level C", 
"Level D", "Level D", "Level D", "Level C", "Level D", "Level D", 
"Level C", "Level C", "Level B", "Level C", "Level D", "Level D", 
"Level D", "Level D", "Level D", "Level D", "Level B", "Level C", 
"Level B", "Level C", "Level C", "Level D")), row.names = c(NA, 
-23L), class = c("data.table", "data.frame"), .internal.selfref = <pointer: 
0x000002478ee34d50>)

到目前为止，我的方法是使用函数来计算新变量的水平...

myfunction<-function(x){case_when(x<2~"Level A",
                              x>1 & x<3~"Level B",
                              x>2 & x<4~"Level C",
                              x>3~"Level D")}

....然后，创建新变量并一一指定它们的名称。

DT[, english_level:=lapply(.SD, myfunction), .SDcols='english_score']

DT[, math_level:=lapply(.SD, myfunction), .SDcols='math_score']

DT[, science_level:=lapply(.SD, myfunction), .SDcols='science_score']

如何简化此过程，最好使用 data.table？

最佳答案

我会这样做(我将你的数据称为DT，因为utils::data()是一个基本的R函数):

score_cols  <- grep("_score$", names(DT), value = TRUE)
level_cols  <- sub("_score", "_level", score_cols)

DT[, 
    (level_cols) := lapply(.SD, myfunction),
    .SDcols = score_cols
]

此外，您的 myfunction() 使用 dplyr::case_when()。这可以工作，但某些 dplyr 函数与 data.table 发生冲突( Between() 、first() 和 last() 与我当前拥有的版本)。您可以将其替换为 data.table::fcase()。

myfunction <- function(x) {
    fcase(
        x == 1, "Level A",
        x == 2, "Level B",
        x == 3, "Level C",
        x == 4, "Level D"
    )
}

这应该也比 dplyr 版本更快。

此外，使用此特定函数，您实际上可以通过将字母表中的第 n 个字母指定为等级来替换键入逻辑时的大小写:

assign_letter_grade  <- function(n) {
    paste("Level", LETTERS[n])
}

关于r - 如何使用 data.table 高效地创建新变量并分配列名？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/75329709/

27

4

0

文章推荐： string - 是否可以使用 "plain"长字符串？

文章推荐： list - 如何打印返回列表的 Perl 表达式的第 n 个元素？

文章推荐： kotlin - 将列表分成两个列表

文章推荐： kotlin - 为什么非空变量可以有空值？

MySQL 列名
这个问题已经有答案了: When to use single quotes, double quotes, and backticks in MySQL (13 个答案) 已关闭 3 年前。我正在尝
SQL - 子查询(列名)
我需要一个返回某些列值的选择查询。我想要的列以“U_S”开头。 Select * from em 我需要转换上面的查询。 '*' 必须是以下结果(但带有逗号): select COLUMN_NAME
JPA OneToMany 列名
在JPA中设置一对多关系时如何设置外键的列名？我想将“items_id”的名称更改为“item_id” @OneToMany private List items; 我尝试了以下注释但没有成功: @
javascript - jqGrid搜索的任意索引(列名)
我有一个jqGrid列定义如下 name : 'idmycolumn', index : 'idmycolumn', width : 80,
查询的 MySql 列名
我是否可以编写一个带参数的存储过程，即 mysql 查询，存储过程返回查询的列名？例如我调用程序: 调用选择器('select * from users') 过程返回列名。使用 informatio
mysql concat 列名
嗨，我刚刚开始学习 sql，我希望使用 concat 将列合并为一个列，但没能做到。我可以在没有 concat 的情况下运行代码，但是当我使用 concat 时，它会给我一个错误代码。谁能告诉我我做错
postgresql - 列名 ... 在此结果集中找不到
我们正在使用 java jdk 1.7.0_45，postgresql jdbc 连接器 postgresql-9.3-1100.jdbc41.jar。这是我们问题的概要，下面粘贴了尽可能多的代码。
python - 返回新数据框中的第一个匹配值/列名
import pandas as pd import numpy as np rng = pd.date_range('1/1/2011', periods=6, freq='H') df = pd.
php - 使用PDO时如何获取原始表/列名？
借助 PHP 的 mysqli 扩展，我可以使用 fetch_field() 方法通过 orgname 和获取列和表的原始(无别名)名称结果中的 orgtable。 PDO 提供了方法getColu
php - 安全转义表名/列名
我在 php 中使用 PDO，因此无法使用准备好的语句转义表名或列名。以下是我自己实现它的万无一失的方法吗: $tn = str_replace('`', '', $_REQUEST['tn']);
R:行名、列名、暗号和名称适用
我想使用 apply 来跨越矩阵的行，并且我想在我的函数中使用当前行的行名。好像不能用rownames , colnames , dimnames或 names直接在函数内部。我知道我可以根据 thi
sql - 处理动态(用户提供的)列名
在编写管理数据的应用程序时，允许最终用户创建或删除最好表示为列的数据类别通常很有用。例如，我正在开发字典构建应用程序；用户可能会决定他们想要向数据添加“备用拼写”字段或其他内容，这可以很容易地表示为另
r - 如何从系列字符(列名)中删除最后两个元素？
在我的数据框中，许多列名称以“.y”结尾，如示例所示: dat <- data.frame(x1=sample(c(0:1)), id=sample(10), av1.y = sample(10) ,
sql - 数据库中所有列的逗号分隔列表(表名 | 列名...)
在 SQL Server 中，我希望看到 Table_Name 以及数据库中与该 Table_Name 关联的所有列。所以输出应该是这样的: TABLE_NAME COLUMN_N
r - 如何从系列字符(列名)中删除最后两个元素？
在我的数据框中，许多列名称以“.y”结尾，如示例所示: dat <- data.frame(x1=sample(c(0:1)), id=sample(10), av1.y = sample(10) ,
oracle - 验证 Oracle 列名
在一种情况下，我们动态创建 sql 到 create动态临时表。 table_name 没有问题，因为它是由我们决定的，但是列名是由我们无法控制的来源提供的。通常我们会使用以下查询检查列名: sel
python - Pandas GroupBy 列名
我有一个数据框，我们可以通过代理 df = pd.DataFrame({'a':[1,0,0], 'b':[0,1,0], 'c':[1,0,0], 'd':[2,3,4]}) 还有一个类别系列 ca
r - 编写用户函数以返回每个变量的列位置、列名、模式和类
我需要编写一个用户定义的函数，当应用于数据框时，它将返回列位置、列名称、模式和每个变量的类。我能够创建一个返回模式和类的，但是当我包含位置/名称时，我总是收到错误。我一直在这样做， myFunctio
hibernate - QueryDsl orderBy 列名
我刚开始使用 QueryDSL 并遇到了问题。是否可以使用列名进行 orderBy？我为 orderBy 动态路径生成找到了这个: Generic querydsl orderBy dynamic p
.net - 如何安全访问 DataGridView 列名？
操作 DataGridView 单元格时，您通常会执行以下操作: MyGrid.CurrentRow.Cells["EmployeeFirstName"].Value = "John"; 这一切都很好

首页

博学

6Ren·AI

商城

r - 如何使用 data.table 高效地创建新变量并分配列名？