gpt4 book ai didi

r - 之间有什么区别。和.data?

转载 作者:行者123 更新时间:2023-12-03 16:00:37 25 4
gpt4 key购买 nike

我正在尝试对将点(“。”)与dplyr一起使用以及将.data代词与dplyr一起使用进行更深入的了解。我编写的激发这篇文章的代码看起来像这样:

cat_table <- tibble(
variable = vector("character"),
category = vector("numeric"),
n = vector("numeric")
)

for(i in c("cyl", "vs", "am")) {
cat_stats <- mtcars %>%
count(.data[[i]]) %>%
mutate(variable = names(.)[1]) %>%
rename(category = 1)

cat_table <- bind_rows(cat_table, cat_stats)
}
# A tibble: 7 x 3
variable category n
<chr> <dbl> <dbl>
1 cyl 4 11
2 cyl 6 7
3 cyl 8 14
4 vs 0 18
5 vs 1 14
6 am 0 19
7 am 1 13
该代码执行了我想要的操作,而实际上并不是该问题的重点。我只是提供它作为背景。
我正在尝试更深入地了解它为什么执行我想要的操作。更具体地说,为什么我不能互换使用 ..data。我已经读过 Programming with dplyr文章,但是我想我想 ..data都表示“我们到此为止的结果。”但是,似乎我在简化关于它们如何工作的思维模型,因为当我在下面的 .data中使用 names()时出现错误:
mtcars %>% 
count(.data[["cyl"]]) %>%
mutate(variable = names(.data)[1])
Error: Problem with `mutate()` input `variable`.
x Can't take the `names()` of the `.data` pronoun
ℹ Input `variable` is `names(.data)[1]`.
Run `rlang::last_error()` to see where the error occurred.
当我在 .中使用 count()时,我得到了意外的结果:
mtcars %>% 
count(.[["cyl"]]) %>%
mutate(variable = names(.)[1])
  .[["cyl"]]  n   variable
1 4 11 .[["cyl"]]
2 6 7 .[["cyl"]]
3 8 14 .[["cyl"]]
我怀疑它与以下内容有关:“请注意,.data不是数据框架;它是一种特殊的构造,代词,它允许您直接使用.data $ x或间接使用.data [访问当前变量。 [var]]。不要指望其他功能可以使用它,”“使用dplyr编程”一文。这告诉我 .data不是什么-数据帧-但是,我仍然不确定 .data是什么以及它与 .有何不同。
我试图这样弄清楚:
mtcars %>% 
count(.data[["cyl"]]) %>%
mutate(variable = list(.data))
但是,结果 <S3: rlang_data_pronoun>对我而言并不意味着任何可以帮助我理解的东西。如果外面有人对此有更好的了解,我将不胜感激。谢谢!

最佳答案

在前面,我认为.data的意图有些困惑,直到人们也考虑了它的同级代词.env
.magrittr::%>%设置和使用的。因为dplyr重新导出了它,所以它就在那里。每当您引用它时,它都是一个真实的对象,因此names(.)nrow(.)等均可按预期工作。它的确反射(reflect)了管道中到目前为止的数据。
另一方面,.data是在rlang中定义的,目的是消除符号解析的歧义。与.env一起,它使您可以清楚地知道要解析特定符号的位置(预期有歧义时)。从 ?.data 来看,我认为这是一个明确的对比:

disp <- 10
mtcars %>% mutate(disp = .data$disp * .env$disp)
mtcars %>% mutate(disp = disp * disp)
但是,如帮助页面中所述, .data(和 .env)只是一个“代词”(我们有动词,所以现在我们也有了代词),因此它只是一个指针,用于解释符号应位于的整洁内部解决。这只是种提示。
所以你的陈述

both . and .data just mean "our result up to this point in the pipeline."


是不正确的: .代表到目前为止的数据, .data只是内部的声明性提示。

考虑另一种思考 .data的方法:假设我们有两个函数完全消除了引用符号所针对的环境的歧义:
  • get_internally,此符号必须始终引用列名,如果该列不存在,它将不与封闭环境联系;和
  • get_externally,此符号必须始终在封闭环境中引用变量/对象,它将永远不会与列匹配。

  • 在这种情况下,翻译以上示例,可能会使用
    disp <- 10
    mtcars %>%
    mutate(disp = get_internally(disp) * get_externally(disp))
    在这种情况下, get_internally不是框架似乎更为明显,因此您无法调用 names(get_internally)并期望它做有意义的事情(而不是 NULL)。就像 names(mutate)
    因此,请勿将 .data视为对象,而应将其视为消除符号环境歧义的机制。我认为它使用的 $既简洁又易于使用,并且绝对具有误导性:即使它被当作 list之类或 environment之类,它也不是。
    顺便说一句:可以为 $编写任何S3方法,使任何分类的对象看起来像框架/环境:
    `$.quux` <- function(x, nm) paste0("hello, ", nm, "!")
    obj <- structure(0, class = "quux")
    obj$r2evans
    # [1] "hello, r2evans!"
    names(obj)
    # NULL
    (存在 $访问器并不总是表示该对象是框架/环境。)

    关于r - 之间有什么区别。和.data?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/63399011/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com