r - 当变量名称包含字符串信息时使用模式融化

r - 当变量名称包含字符串信息时使用模式融化 - 避免强制转换为数字

转载作者：行者123 更新时间：2023-12-02 02:55:39

26

4

我使用 data.table::melt() 中的 patterns() 参数来融合包含多个易于定义模式的列的数据。它正在工作，但我不知道如何创建字符索引变量而不是默认的数字分割。

例如，在数据集“A”中，dog 和 cat 列名称具有数字后缀(例如“dog_1”、“cat_2”)，这些后缀在 melt 中得到正确处理(请参阅生成的结果) “变量”列):

A = data.table(idcol = c(1:5),
            dog_1 = c(1:5),   cat_1 = c(101:105),
            dog_2 = c(6:10),  cat_2 = c(106:110),
            dog_3 = c(11:15), cat_3 = c(111:115))  

head(melt(A, measure = patterns("^dog", "^cat"), value.name = c("dog", "cat")))
   
   idcol variable dog cat
1:     1        1   1 101
2:     2        1   2 102
3:     3        1   3 103
4:     4        1   4 104
5:     5        1   5 105
6:     1        2   6 106

但是，在数据集“B”中，dog 和 cat 列的后缀是字符串(例如“dog_one”、“cat_two”)。此类后缀在 melt 中转换为数字表示形式，请参阅“变量”列。

B = data.table(idcol = c(1:5),
                dog_one = c(1:5),     cat_one = c(101:105),
                dog_two = c(6:10),    cat_two = c(106:110),
                dog_three = c(11:15), cat_three = c(111:115))

head(melt(B, measure = patterns("^dog", "^cat"), value.name = c("dog", "cat")))

   idcol variable dog cat
1:     1        1   1 101
2:     2        1   2 102
3:     3        1   3 103
4:     4        1   4 104
5:     5        1   5 105
6:     1        2   6 106

如何使用正确的字符串后缀一/二/三而不是 1/2/3 填充“变量”列？

最佳答案

从 data.table 1.14.1(正在开发中； installation )开始，新函数 measure 可以更轻松地将具有串联变量名称的数据融合为所需的格式(请参阅？measure。

separator 参数用于创建不同组的measure.vars。在 ... 参数中，我们进一步指定与 sep 生成的组相对应的值的命运。

在 OP 中，变量名称的形式为 species_number，例如dog_one。因此，我们需要 ... 中的两个符号来指定separator 之前和之后的分组方式处理，一种用于物种(狗或猫)，另一种用于数量(一到三)。

如果...中的符号设置为value.name，则“melt返回多个值列(其名称由该组中的唯一值定义)”。因此，由于您希望每个物种有多个列，因此分隔符定义的 first 组、... 中的 first 符号应为 值.名称.

分隔符之后的第二组是数字，因此它被指定为...中的第二个符号。我们希望数字在单个值列中，因此在这里我们指定输出变量所需的列名称，例如“nr”。

melt(B, measure.vars = measure(value.name, nr, sep = "_"))

      idcol    nr dog cat
#  1:     1   one   1 101
#  2:     2   one   2 102
#  3:     3   one   3 103
#  4:     4   one   4 104
#  5:     5   one   5 105
#  6:     1   two   6 106
#  7:     2   two   7 107
#  8:     3   two   8 108
#  9:     4   two   9 109
# 10:     5   two  10 110
# 11:     1 three  11 111
# 12:     2 three  12 112
# 13:     3 three  13 113
# 14:     4 three  14 114
# 15:     5 three  15 115

<小时/>

data.table 1.14.1 之前

可能有更简单的方法，但这似乎有效:

# grab suffixes of 'variable' names
suff <- unique(sub('^.*_', '', names(B[ , -1])))
# suff <- unique(tstrsplit(names(B[, -1]), "_")[[2]])

# melt
B2 <- melt(B, measure = patterns("^dog", "^cat"), value.name = c("dog", "cat"))
   
# replace factor levels in 'variable' with the suffixes
setattr(B2$variable, "levels", suff)

B2
#     idcol variable dog cat
# 1:      1      one   1 101
# 2:      2      one   2 102
# 3:      3      one   3 103
# 4:      4      one   4 104
# 5:      5      one   5 105
# 6:      1      two   6 106
# 7:      2      two   7 107
# 8:      3      two   8 108
# 9:      4      two   9 109
# 10:     5      two  10 110
# 11:     1    three  11 111
# 12:     2    three  12 112
# 13:     3    three  13 113
# 14:     4    three  14 114
# 15:     5    three  15 115

两个相关的data.table问题:

melt.data.table should offer variable to match on the name, rather than the number

FR: expansion of melt functionality for handling names of output .

<小时/>

这是我认为 good'ol base::reshape 更干净的(罕见)实例之一。它的 sep 参数在这里派上用场 - “值”列的名称和“变量”列的级别都是一次性生成的:

reshape(data = B,
        varying = names(B[ , -1]),
        sep = "_",
        direction = "long")

关于r - 当变量名称包含字符串信息时使用模式融化 - 避免强制转换为数字，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/41883573/

26

4

0

文章推荐： c# - 自托管 OWIN 和 urlacl

文章推荐： tensorflow - Keras 前 5 名预测

文章推荐： node.js - 建立并保存关联

perl - 避免 Mojolicious 异步行为？避免 "AnyEvent::CondVar: recursive blocking wait attempted"
我们已经有一个使用 AnyEvent 的库。它在内部使用 AnyEvent，并最终返回一个值(同步 - 不使用回调)。有什么方法可以将这个库与 Mojolicious 一起使用吗？它的作用如下: #
JAXB 避免 JAXBElement
我想从 XSD 文件生成带有 JAXB 的 Java 类。问题是，我总是得到一些像这样的类(删除了命名空间): public static class Action { @X
javascript - 避免/禁用自动跳转到输入字段
我有一个关于 html 输入标签或 primefaces p:input 的问题。为什么光标总是自动跳转到输入字段。我的页面高度很高，因此您需要向下滚动。输入字段位于页面末尾，光标自动跳转(加载)到页
oop - 避免 if 语句
我今天在考虑面向对象设计，我想知道是否应该避免 if 语句。我的想法是，在任何需要 if 语句的情况下，您都可以简单地创建两个实现相同方法的对象。这两个方法实现只是原始 if 语句的两个可能的分支。
java - 避免 NullPointerException
String graphNameUsed = graphName.getName(); if (graphType.equals("All") || graphType.equals(
mysql - 避免/删除表中的重复行
我有一张友谊 table CREATE TABLE IF NOT EXISTS `friendList` ( `id` int(10) NOT NULL, `id_friend` int(10
c - 避免 if in 循环
上下文 Debian 64。Core 2 二人组。摆弄循环。我使用了同一循环的不同变体，但我希望尽可能避免条件分支。但是，即使我认为它也很难被击败。我考虑过 SSE 或位移位，但它仍然需要跳转(
java - 避免 OutOfMemoryError
我最近在 Java 中创建了一个方法来获取字符串的排列，但是当字符串太长时它会抛出这个错误:java.lang.OutOfMemoryError: Java heap space我确信该方法是有效的，
c++ - 避免 while (!is_eof)
我正在使用 (C++) 库，其中需要使用流初始化对象。库提供的示例代码使用此代码: // Declare the input stream HfstInputStream *in = NULL; tr
MySQL 避免 WHERE/AND 中的子查询重复
我有一个 SQL 查询，我在 WHERE 子句中使用子查询。然后我需要再次使用相同的子查询将其与不同的列进行比较。我假设没有办法在子查询之外访问“emp_education_list li”？我猜
android - 避免 NetworkOnMainThreadException
我了解到在 GUI 线程上不允许进行网络操作。对我来说还可以。但是为什么在 Dialog 按钮点击回调上使用这段代码仍然会产生 NetworkOnMainThreadException ？ new T
C++ 避免 if & 硬编码字符串
有没有办法避免在函数重定向中使用 if 和硬编码字符串，想法是接收一个字符串并调用适当的函数，可能使用模板/元编程.. #include #include void account() {
c - 避免 TIME_WAIT
我正在尝试避免客户端出现 TIME_WAIT。我连接然后设置 O_NONBLOCK 和 SO_REUSEADDR。我调用 read 直到它返回 0。当 read 返回 0 时，errno 也为 0。我
c++ - 避免/检测对导出文件的操纵
我正在开发 C++ Qt 应用程序。为了在应用程序或其连接的设备出现故障时帮助用户，程序导出所有内部设置并将它们存储在一个普通文件(目前为 csv)中。然后将此文件发送到公司(例如通过邮件)。为避免
java - 避免 instanceof
我有一组具有公共(public)父类(super class)的 POJO。这些存储在 superclass 类型的二维数组中。现在，我想从数组中获取一个对象并使用子类的方法。这意味着我必须将它们转
java - 避免 "for"语句中的空指针异常
在我的代码中，当 List 为 null 时，我通常使用这种方法来避免 for 语句中的 NullPointerException: if (myList != null && myList.size
c - 避免 TIME_WAIT
我正在尝试避免客户端出现 TIME_WAIT。我连接然后设置 O_NONBLOCK 和 SO_REUSEADDR。我调用 read 直到它返回 0。当 read 返回 0 时，errno 也为 0。我
c - 避免/减轻每次函数调用后返回值检查的痛苦的方法？
在不支持异常的语言和/或库中，许多/几乎所有函数都会返回一个值，指示其操作成功或失败 - 最著名的例子可能是 UN*X 系统调用，例如 open( ) 或 chdir()，或一些 libc 函数。无
R 按值选择，避免 NA
我尝试按值提取行。 col1 df$col1[col1 == "A"] [1] "A" NA 当然我只想要“A”。如何避免 R 选择 NA 值？顺便说一句，我认为这种行为非常危险，因为很多人都会陷入
R 避免 rowwise() 并寻找更快的替代方案
我想将两个向量合并到一个数据集中，并将其与函数 mutate 集成为 5 个新列到现有数据集中。这是我的示例代码: vector1% rowwise()%>% mutate(vector2|>

首页

博学

6Ren·AI

商城

r - 当变量名称包含字符串信息时使用模式融化 - 避免强制转换为数字