R 查找由 mutate() 中另一列值定义的列的值-6ren

R 查找由 mutate() 中另一列值定义的列的值

转载作者：行者123 更新时间：2023-12-03 20:22:52

25

4

我正在尝试从我的数据框/tibble 中的其他列中查找依赖于列 var 中的值的值。我可以通过在 case_when() 中对它们进行硬编码来实现这一点。 :

library(tidyverse)
set.seed(1)
ds <- tibble(var = paste0("x", sample(1:3, 10, replace = T)),
             x1 = 0:9,
             x2 = 100:109,
             x3 = 1000:1009)
ds %>% 
   mutate(result = case_when(var == "x1" ~ x1,
                             var == "x2" ~ x2,
                             var == "x3" ~ x3))
#> # A tibble: 10 x 5
#>    var      x1    x2    x3 result
#>    <chr> <int> <int> <int>  <int>
#>  1 x1        0   100  1000      0
#>  2 x3        1   101  1001   1001
#>  3 x1        2   102  1002      2
#>  4 x2        3   103  1003    103
#>  5 x1        4   104  1004      4
#>  6 x3        5   105  1005   1005
#>  7 x3        6   106  1006   1006
#>  8 x2        7   107  1007    107
#>  9 x2        8   108  1008    108
#> 10 x3        9   109  1009   1009

但是，如果我没有只有 3 列而是许多 xn 呢？
我发现以下适用于外部变量/对象:

y <- "x2"
ds %>% 
  mutate(result = !!sym(y))
#> # A tibble: 10 x 5
#>    var      x1    x2    x3 result
#>    <chr> <int> <int> <int>  <int>
#>  1 x1        0   100  1000    100
#>  2 x3        1   101  1001    101
#>  3 x1        2   102  1002    102
#>  4 x2        3   103  1003    103
#>  5 x1        4   104  1004    104
#>  6 x3        5   105  1005    105
#>  7 x3        6   106  1006    106
#>  8 x2        7   107  1007    107
#>  9 x2        8   108  1008    108
#> 10 x3        9   109  1009    109

但它不适用于 tibble 中的内部变量/列:

ds %>% 
  mutate(result = !!sym(var))
#> Error: Only strings can be converted to symbols

创建于 2021-05-24 由 reprex package (v2.0.0)
非常感谢有关如何在数据框/tibble 列中使用它的任何想法。

最佳答案

使用 {dplyr}
我能想到的有两种解决方案。第一个在语法上更简洁，使用 rowwise()连同 get() :

ds %>% 
  rowwise() %>% 
  mutate(result = get(var)) %>% 
  ungroup()
#> # A tibble: 10 x 5
#>    var      x1    x2    x3 result
#>    <chr> <int> <int> <int>  <int>
#>  1 x1        0   100  1000      0
#>  2 x3        1   101  1001   1001
#>  3 x1        2   102  1002      2
#>  4 x2        3   103  1003    103
#>  5 x1        4   104  1004      4
#>  6 x3        5   105  1005   1005
#>  7 x3        6   106  1006   1006
#>  8 x2        7   107  1007    107
#>  9 x2        8   108  1008    108
#> 10 x3        9   109  1009   1009

使用 {purrr}
第二个用途 purrr::pmap()所以可以被认为更先进一点。然而，它具有更快和更简洁的优点:

ds %>% 
  mutate(result = pmap_int(., function(var, ...) c(...)[var]))
#> # A tibble: 10 x 5
#>    var      x1    x2    x3 result
#>    <chr> <int> <int> <int>  <int>
#>  1 x1        0   100  1000      0
#>  2 x3        1   101  1001   1001
#>  3 x1        2   102  1002      2
#>  4 x2        3   103  1003    103
#>  5 x1        4   104  1004      4
#>  6 x3        5   105  1005   1005
#>  7 x3        6   106  1006   1006
#>  8 x2        7   107  1007    107
#>  9 x2        8   108  1008    108
#> 10 x3        9   109  1009   1009

编辑:功能方法
我刚刚想到的另一种选择是以编程方式构造对 case_when() 的调用。 .这可能类似于以下内容:

# Define a function to construct a `case_when()` call:
x <- switch_cols <- function(var) {
  
  vals <- unique(var)
  
  name <- deparse(substitute(var))
  
  formulae <- lapply(
    sprintf("%s == '%s' ~ %s", name, vals, vals), 
    as.formula, 
    env = parent.frame()
  )
  
  case_when(!!!formulae)
  
}

ds %>% 
    mutate(result = switch_cols(var))
#> # A tibble: 10 x 5
#>    var      x1    x2    x3 result
#>    <chr> <int> <int> <int>  <int>
#>  1 x1        0   100  1000      0
#>  2 x3        1   101  1001   1001
#>  3 x1        2   102  1002      2
#>  4 x2        3   103  1003    103
#>  5 x1        4   104  1004      4
#>  6 x3        5   105  1005   1005
#>  7 x3        6   106  1006   1006
#>  8 x2        7   107  1007    107
#>  9 x2        8   108  1008    108
#> 10 x3        9   109  1009   1009

表现
我们可以使用 microbenchmark() 测试性能.为了完整性，我还包含了@akrun 的基本 R 解决方案:

microbenchmark::microbenchmark(
  
  rowwise = ds %>% 
    rowwise() %>% 
    mutate(result = get(var)) %>% 
    ungroup(),
  
  purrr = ds %>% 
    mutate(result = purrr::pmap_int(., function(var, ...) c(...)[var])),
  
  functional = ds %>% 
    mutate(result = switch_cols(var)),
  
  base1 = ds %>%
    mutate(result = as.data.frame(.[-1])[cbind(dplyr::row_number(), 
                                               match(var, names(.)[-1]))]),
  
  base2 = ds$result <- as.data.frame(ds[-1])[cbind(seq_len(nrow(ds)), 
                                                   match(ds$var, names(ds)[-1]))]
)
#> Unit: microseconds
#>       expr    min     lq    mean median      uq   max neval
#>    rowwise 5385.9 6347.3 10692.3 8127.9 12756.3 32893   100
#>      purrr 2957.2 3698.2  5837.4 4533.2  7566.6 12317   100
#> functional 3098.4 3956.6  5625.8 4536.0  7124.5 12665   100
#>      base1 3028.9 3867.3  5839.6 4525.5  7610.0 16408   100
#>      base2  275.9  386.6   584.5  488.6   676.9  3996   100

不出所料，“纯” base R方法无疑是最快的选择。除了 rowwise() 之外，其他都相当可比。这要慢得多。

关于R 查找由 mutate() 中另一列值定义的列的值，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/67678405/

25

4

0

文章推荐： c - memcheck 错误是否可以接受？

文章推荐： python - 使用泰勒级数逼近 cos

文章推荐： Scala:逐行读取一个巨大的压缩文本文件而不加载到内存中

文章推荐： rust - [Rust 枚举] : How to get data value from mixed type enum in rust?

linux - compiler.h 文件中有 __cond_lock(x,c) 定义，但没有 __cond_unlock(x,c) 定义？
在complier.h中有一个宏定义如下: # define __cond_lock(x,c) ((c) ? ({ __acquire(x); 1; }) : 0) 但是这里我有一个问题，就是哪里
CURLOPT_ 定义
curl_easy_setopt 的选项在哪里？定义？我试图寻找 CURLOPT_VERBOSE 和其他一些整数值，但这些似乎没有在 curl.h 中明确定义。最佳答案第 792 行: #ifde
dllimport静态数据成员的C++定义
我确实有一个如下所示的类(class): //.h file class __declspec(dllimport) MyClass { public: //stuff pri
关系代数与逻辑优化规则(一):定义
作者: zhuwenzhuang, 2024.05.08. 阅读前假设读者熟悉数据库使用,了解 SQL 的语法和关系算子的大概含义, 能通过 EXPLAIN 命令查看数据库执行计划. 0 前言
Swagger header 定义
我似乎无法找到是否可以声明一个 header 对象以便在响应 header 中重用它，有一些示例定义了响应模式的对象，但它不会转置为响应 header 。我只设法制作了一个可重用的响应对象，如下所示:
CSS 选择器 * + * 定义？
css 选择器 * + * 实际上是什么意思？当您执行检查元素时，您可以在谷歌浏览器的控制台中看到它。在我看来，这似乎是对 "Every second child"应用一种风格，但仍然想确定。谁能帮我
Haskell primPutChar 定义
我试图弄清楚基本的IO Haskell 函数是定义好的，所以我使用了this reference我到了putChar函数定义: putChar :: Char -> IO () putChar
.net - TargetFrameworkAttribute 定义
我得到了一个自动生成的文件，该文件定义了程序集属性，我正在尝试理解内容。 [assembly: global::System.Runtime.Versioning.TargetFrameworkAtt
gnuplot，检查函数是否存在(定义)
This文档演示了如何检查变量是否先前已在 gnuplot 脚本中定义。文档中的示例: a = 10 if (exists("a")) print "a is defined" if (!exist
scheme - 定义、让和设置之间的区别!
好吧，这是一个相当基本的问题:我正在关注 SICP 视频，我对 define、let 和之间的区别有点困惑设置!. 1) 根据 Sussman 在视频中的说法，define 只允许为变量附加一个值一
枚举值的 XSD 定义
我一直在尝试定义一个包含只能具有以下三个值之一的字段的 XSD: 绿色红色蓝色本质上，我想在架构级别定义严格的枚举。我的第一次尝试似乎是错误的，我不确定修复它的“正确”方法。
class - “POCO”定义
有人可以定义“POCO”到底是什么意思吗？我越来越频繁地遇到这个术语，我想知道它是否仅与普通类有关还是意味着更多？最佳答案 “普通旧式 C# 对象” 只是一个普通的类，没有描述基础结构问题或域对象不
django CharField 定义
在我经常看到的一些django模型中 myfield = models.CharField(_('myfield')) class_name = models.CharField(_('Type'),
c - boolean 定义
每当 BOOL 数据类型不容易预定义时，我都会使用以下定义进行 boolean 运算， typedef unsigned char BOOL; (由于内存使用)。我意识到出于性能原因，使用本地总线宽
Java: vector 定义
l_ABC_BEANVector = utilRemote.fnGetVector("ABC_COVBEANVector"); 编码的含义是什么？任何帮助，我真的很感激。谢谢最佳答案唯一可以肯定地
JAVACC token 定义
我正在使用 javacc 开发一个项目，我遇到问题并需要一些帮助，我的文件中有这样的内容: STRING COPYRIGHT (C) 2003, 2004 SYNOPSYS, INC.; 我为单词 S
Haskell primPutChar 定义
我想弄清楚基本的 IO定义了 Haskell 函数，所以我使用了 this reference然后我到了 putChar函数定义: putChar :: Char -> IO () putCha
python - 定义@property
我在具体类中使用 @property 定义 getter 时遇到问题。这是Python代码: from abc import ABCMeta, abstractproperty class abstr
C 定义/全局变量依赖于其他东西
我正在为大学用 C 语言编写一个小游戏，但我陷入了困境。我(在头文件中)有这个结构: typedef struct{ game_element field[MAX_ROWS][MAX_COLU
c - 如何从flex文件中读取规则(定义)？
我一直在 .l 文件中创建标记定义。由于数据集数量庞大，它变得有点乏味。有没有办法读取文件中的所有单词，例如包含所有名词的 noun.txt 并给所有名词一个标记。基本上，我想自动化这部分: %%

首页

博学

6Ren·AI

商城

R 查找由 mutate() 中另一列值定义的列的值