R dplyr::mutate with ifelse 以全局变量为条件回收第一行的结果-6ren

R dplyr::mutate with ifelse 以全局变量为条件回收第一行的结果

转载作者：行者123 更新时间：2023-12-04 09:19:31

25

4

我很好奇为什么 dplyr::mutate() 调用中的 ifelse() 语句似乎只适用于我的数据框的第一行。这将返回一个值，该值在整个列中循环使用。由于在 ifelse() 的任一情况下评估的表达式仅在我的数据框的上下文中有效，我希望条件检查和结果表达式评估将作为一个整体在列上执行，不仅仅是他们的第一个元素。

这是一个示例:我在数据框外定义了一个名为 checkVar 的变量。根据 checkVar 的值，我想在新列 z 中向我的数据框添加不同的值，这些值是作为现有列的函数计算的。

如果我这样做

checkVar <- 1
df <- data.frame( x=11:15, y=1:5 ) %>%
  dplyr::mutate( z=ifelse(checkVar == 1, x/y, x-y) )
df

返回

不是每行的 z 是 x 和 y 的商，而是所有行都填充数据框第一行的 x 和 y 的商。

但是，如果我指定 rowwise()，我会得到我想要的结果:

df <- df %>%
  dplyr::rowwise() %>%
  dplyr::mutate( z=ifelse(checkVar == 1, x/y, x-y) ) %>%
  dplyr::ungroup()
df

返回

# A tibble: 5 x 3
      x     y         z
  <int> <int>     <dbl>
1    11     1 11.000000
2    12     2  6.000000
3    13     3  4.333333
4    14     4  3.500000
5    15     5  3.000000

当 x 和 y 仅定义为数据框的列时，为什么我必须明确指定 rowwise()？

最佳答案

这与 dplyr::mutate 没有真正的关系，但与 ifelse 的工作方式有关，这里是文档 ?ifelse:

ifelse returns a value with the same shape as test which is filled with elements selected from either yes or no depending on whether the element of test is TRUE or FALSE.

Usage

ifelse(test, yes, no)

例子:

ifelse(T, c(1,2,3), c(2,3,4))
# [1] 1

您的第一个案例是向量化的，ifelse 将向量 x/y 和 x-y 作为 yes 和 无参数，因为checkVar == 1返回TRUE(标量)，ifelse返回(x/y) [1]，即向量 x/y 的第一个元素，即 11 并被回收以填充新列 z;

在你的第二种情况下，mutate 和 ifelse 是每行执行的，所以它被评估了 5 次，每次都返回值该行的 x/y。

如果你的条件是标量，那么你不需要向量化 ifelse，if/else更适合使用:

checkVar <- 1
mutate(df, z = if(checkVar == 1) x/y else x-y)

#   x y         z
#1 11 1 11.000000
#2 12 2  6.000000
#3 13 3  4.333333
#4 14 4  3.500000
#5 15 5  3.000000

关于R dplyr::mutate with ifelse 以全局变量为条件回收第一行的结果，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/46614059/

25

4

0

文章推荐： r - 为什么 R 制作的这张图像中有一条虚假的垂直白线？

文章推荐： android-layout - 如何在android中调整PIP模式的大小

文章推荐： regex - 在 vi/vim 中保留某些 "words"的同时替换

r - dplyr::rename_all & dplyr::if_else
我有以下数据框: library(dplyr) df % rename_all(funs(stringr::str_replace_all(., "gh", "v"))) 我想结合使用 renam
r - dplyr::rename_all & dplyr::if_else
我有以下数据框: library(dplyr) df % rename_all(funs(stringr::str_replace_all(., "gh", "v"))) 我想结合使用 renam
r - 使用 dplyr::across 执行 dplyr::select
我有一个数据( df_1 ): df_1 % select_at(.vars = 'var_1') var_1 1 99.47262 10 25.91552 没关系。但: df_1
r - 库(dplyr): there is no package called ‘dplyr’ 中的错误
我正在尝试安装dplyr软件包，但收到一条错误消息，提示“库(dplyr)中存在错误:没有名为dplyr的软件包”。我正在使用窗口系统和Ri386 3.5.2。我尝试按照其他人的建议使用代码insta
R、dplyr 和雪 : how to parallelize functions which use dplyr
假设我想以并行方式申请 myfunction到 myDataFrame 的每一行.假设 otherDataFrame是一个包含两列的数据框:COLUNM1_odf和 COLUMN2_odf出于某些原因
r - 从 dplyr 使用 %>% 运算符而不在 R 中加载 dplyr
我目前正在构建一个包，我想知道是否有办法调用 %>%来自 dplyr 的操作符，而无需实际附加 dplyr 包。例如，对于从包中导出的任何函数，您可以使用双冒号 ( :: ) 调用它。所以如果我想使用
r - 如何使用 dplyr 内的函数或表达式对 dplyr 内的公式调用创建的 t.test 模型的属性进行变异？
library(dplyr) mtcars %>% group_by(vs) %>% do(tt=t.test(mpg~am, data=.)) %>% mutate(t=tt$statist
r - 尝试使用 dplyr::do 在内部构建模型，然后在同一个 dplyr::do 调用中拉取 coef(model)
我正在尝试为一组标准曲线构建一系列线性模型。目前这段代码正在产生我想要的输出(每个线性模型的截距和斜率): slopes % group_by(plate, col, row, conc_ug_mL
用 dplyr::group_split 和 purrr::map_df 替换 dplyr::do 函数
我正在寻找替换我的一些使用 dplyr::do 的 R 代码，因为这个函数很快就会被弃用。我的很多工作都需要创建分层 CDF 图。使用 dply:do 时，我分层的变量作为变量传递给结果数据框，然后我
r - 在 `dplyr::case_when()` 的上下文中使用 `dplyr::mutate()` 中的复杂 RHS 表达式
问题我正在尝试使用 dplyr::mutate()和 dplyr::case_when()在数据框中创建新的数据列，该列使用存储在另一个对象(“查找列表”)中的数据填充，并基于数据框中列中的信息。
r - 无法在 dplyr.spark.hive 包中创建由 SparkSQL 支持的 dplyr src
最近我发现了很棒的 dplyr.spark.hive启用 dplyr 的软件包前端操作 spark或 hive后端。在包的 README 中有关于如何安装此包的信息: options(repos =
r - 你能在 dplyr 链中使用 data.frame 两次吗？ dplyr 说 "Error: cannot handle "
我正在尝试在 dplyr 链中使用 data.frame 两次。这是一个给出错误的简单示例 df % group_by(Type) %>% summarize(X=n()) %>% mu
r - data.table 后端的 dplyr 错误 [在 dplyr 0.4.3 或更早版本中]
当我浏览答案时 here , 我找到了 this solution与 data.frame 完全符合预期. library(dplyr) # dplyr_0.4.3 library(data.tab
使用通用名称对列重新排序 - dplyr
我的数据来自一个数据库，根据我运行 SQL 查询的时间，该数据库可能包含一周到另一周不同的 POS 值。不知道哪些值将在变量中使得自动创建报告变得非常困难。我的数据如下所示: sample % p
dplyr 中的回归输出
我想定义与“扫帚”包中类似的功能 library(dplyr) library(broom) mtcars %>% group_by(am) %>% do(model = lm(mpg ~ w
dplyr 中的滚动总和
set.seed(123) df % group_by(id) %>% mutate(roll.sum = c(x[1:4], zoo::rollapply(x, 5, sum))) # Groups
dplyr 中带条件的递归函数
先来个样本数据 set.seed(123) dat 1 -4 2 6 3 -2 4
按组排序变量 (dplyr)
我有一个带列的数据框 x1, x2, group我想生成一个带有额外列的新数据框 rank表示x1的顺序在其组中。有相关问题here ，但已接受的答案似乎不再有效。到这里为止，很好: librar
dplyr 中的排名函数
我有一个示例 df，如下所示: d% group_by(CaseNo) %>% arrange(desc(Submissiondate)) %>% dplyr::mutate(rank = row_n
用最常见的值替换数据输入错误 - dplyr
我有一个数据框，其中包含一些数据输入错误。我希望将每组的这些异常值替换为每组最常见的值。我的数据如下: df % group_by(CODE) %>% mutate(across(c(DOSAGE

首页

博学

6Ren·AI

商城

R dplyr::mutate with ifelse 以全局变量为条件回收第一行的结果