gpt4 book ai didi

r - 对具有相似名称的多组列使用相同的 mutate

转载 作者:行者123 更新时间:2023-12-02 01:24:41 26 4
gpt4 key购买 nike

想象一下以下数据:

data <- tribble(
~a1, ~a2, ~b1, ~b2, ~c1, ~c2,
32, 32, 50, 12, 12, 50,
48, 20, 55, 43, 10, 42
)

对于 i = {1, 2},我想计算deltai = (ai - ci)/((ai + bi) * ci + ai)

(我明确使用随机数和随机函数;通过识别和利用某些模式无法找到解决方案。)

最简单的方法就是这样做

data <- data %>%
mutate(
delta1 = (a1 - c1) / ((a1 + b1) * c1 + a1),
delta2 = (a2 - c2) / ((a2 + b2) * c2 + a2)
)

但它引入了很多重复。

我可以做到

delta <- function(a, b, c) {
return((a - c) / ((a + b) * c + a))
}

data <- data %>%
mutate(
delta1 = delta(a1, b1, c1),
delta2 = delta(a2, b2, c2)
)

这使得以后可以轻松更改 delta() 函数,但这看起来仍然有很多重复。

我的问题:有没有办法用一行 mutate 来计算 delta1delta2

您可能认为重复次数没问题,但我可能需要计算其他几个术语,例如 gammaialphai。复制行感觉不是一个好的解决方案。

我认为我可以通过这样做来解决问题

for (i in c(1, 2)) {
data <- data %>%
mutate("delta{i}" := delta(paste0('a', i), paste0('b', i), paste0('c', i)))
}

但是我得到了

Error in `mutate()`:
! Problem while computing `delta1 = delta(paste0("a", i), paste0("b", i), paste0("c", i))`.
Caused by error in `a - c`:
! non-numeric argument to binary operator
Run `rlang::last_error()` to see where the error occurred.

循环变异感觉有点不对劲。

我在Mutate multiple / consecutive columns (with dplyr or base R)中看到了解决方案, How can I mutate multiple variables using dplyr?Mutating multiple columns in a data frame using dplyr ,但解决方案的可读性远不如复制和粘贴该行并接受重复项。

理想情况下,我希望找到 across 的巧妙用法,让我能够编写类似 mutate("delta{i}":= delta(a{i}, b{i}, c{i}))

最佳答案

用胶水

您可以利用glue功能。这可能是最好、最灵活的方式:

library(glue)
cols <- c("1", "2")
exprs <- glue("(a{cols} - c{cols}) / ((a{cols} + b{cols}) * c{cols} + a{cols})")
names(exprs) <- glue("delta{cols}")

data |>
mutate(!!!rlang::parse_exprs(exprs))

# A tibble: 2 × 8
a1 a2 b1 b2 c1 c2 delta1 delta2
<dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
1 32 32 50 12 12 50 0.0197 -0.00806
2 48 20 55 43 10 42 0.0353 -0.00825

跨过

如果你想用across来实现,你可以像这样使用一堆它们:

library(dplyr)
data %>%
mutate((across(starts_with("a"), .names = "delta{sub('a', '', .col)}") -
across(starts_with("c"))) /
((across(starts_with("a")) + across(starts_with("b"))) *
across(starts_with("c")) + across(starts_with("a"))))

# A tibble: 2 × 8
a1 a2 b1 b2 c1 c2 delta1 delta2
<dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
1 32 32 50 12 12 50 0.0197 -0.00806
2 48 20 55 43 10 42 0.0353 -0.00825

通过旋转

但是,您也许应该选择先转向长轴再转向宽轴:

library(dplyr)
library(tidyr)
data %>%
mutate(rown = row_number()) %>%
pivot_longer(-rown,
names_to = c(".value", "number"),
names_pattern = "([a-z])(\\d)") %>%
group_by(rown) %>%
mutate(delta = (a - c) / ((a + b) * c + a)) %>%
pivot_wider(names_from = number,
values_from = a:delta,
names_sep = "")

# A tibble: 2 × 9
# Groups: rown [2]
rown a1 a2 b1 b2 c1 c2 delta1 delta2
<int> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
1 1 32 32 50 12 12 50 0.0197 -0.00806
2 2 48 20 55 43 10 42 0.0353 -0.00825

关于r - 对具有相似名称的多组列使用相同的 mutate,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/75060513/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com