r - dplyr 总结的变量结果，取决于输出变量命名-6ren

r - dplyr 总结的变量结果，取决于输出变量命名

转载作者：行者123 更新时间：2023-12-01 02:02:09

27

4

我正在使用 dplyr包 ( dplyr 0.4.3; R 3.2.3) 用于分组数据的基本摘要 ( summarise )，但得到不一致的结果('sd' 为 NaN，'N' 计数不正确)。更改“名称” "的输出具有可变效果(以下示例)。

迄今为止的结果摘要:

plyr包未加载，我知道这可能会导致 dplyr 出现问题如果先加载。

使用或不使用 NA 数据(未显示)获得的结果相同。

问题可以通过使用驼峰命名法变量命名(未显示)或使用名称中没有非字母数字分隔符的输出变量来解决。

仍然根据“。”的组合获得有效结果。或输出列名称中的“_”。

问题:虽然可以解决这个问题，但我是否违反了我违反的基本变量命名规则，或者是否存在需要解决的程序问题？我在总结中看到了其他具有可变行为的问题，但不完全是这样。

谢谢，马特

示例数据 :

library(dplyr)
df<-data_frame(id=c(1,1,1,2,2,2,3,3,3),
       time=rep(1:3, 3),
       glucose=c(90,150, 200,
                 100,150,200,
                 80,100,150))

示例:sd 给出 NaN 和不准确的 n

df %>% group_by(time) %>%
  summarise(glucose=mean(glucose, na.rm=TRUE),
        glucose.sd=sd(glucose, na.rm=TRUE),
        n=sum(!is.na(glucose)))

   time  glucose glucose.sd     n
  (int)    (dbl)      (dbl) (int)
1     1  90.0000        NaN     1
2     2 133.3333        NaN     1
3     3 183.3333        NaN     1

我想知道使用“.”是否有问题。名义上，
或使用与数据框中相同的名称。从输出中删除现有的 df col 名称可解决此问题

df %>% group_by(time) %>%
  summarise(avg=mean(glucose, na.rm=TRUE),
        stdv=sd(glucose, na.rm=TRUE),
        n=sum(!is.na(glucose)))

   time      avg     stdv     n
  (int)    (dbl)    (dbl) (int)
1     1  90.0000 10.00000     3
2     2 133.3333 28.86751     3
3     3 183.3333 28.86751     3

即使保留了“glucose.sd”，删除“glucose”摘要也会修复它
示例:去除“葡萄糖”后，结果正常

df %>% group_by(time) %>%
  summarise(glucose.sd=sd(glucose, na.rm=TRUE),
        n=sum(!is.na(glucose)))

   time glucose.sd     n
  (int)      (dbl) (int)
1     1   10.00000     3
2     2   28.86751     3
3     3   28.86751     3

如果我为第一个摘要添加“glucose.mean”，它工作正常

df %>% group_by(time) %>%
  summarise(glucose.mean=mean(glucose, na.rm=TRUE),
            glucose.sd=sd(glucose, na.rm=TRUE),
            n=sum(!is.na(glucose)))

   time glucose.mean glucose.sd     n
  (int)        (dbl)      (dbl) (int)
1     1      90.0000   10.00000     3
2     2     133.3333   28.86751     3
3     3     183.3333   28.86751     3

使用不带“.”的变量名时出现同样的错误。
所以这不仅仅是使用“.”的问题。名义上

df %>% group_by(time) %>%
  summarise(glucose=mean(glucose, na.rm=TRUE),
        glucose_sd=sd(glucose, na.rm=TRUE),
        n=sum(!is.na(glucose)))

   time  glucose glucose_sd     n
  (int)    (dbl)      (dbl) (int)
1     1  90.0000        NaN     1
2     2 133.3333        NaN     1
3     3 183.3333        NaN     1

将“glucose”重命名为“glucose_mean”有效

df %>% group_by(time) %>%
  summarise(glucose_mean=mean(glucose, na.rm=TRUE),
        glucose_sd=sd(glucose, na.rm=TRUE),
        n=sum(!is.na(glucose)))

   time glucose_mean glucose_sd     n
  (int)        (dbl)      (dbl) (int)
1     1      90.0000   10.00000     3
2     2     133.3333   28.86751     3
3     3     183.3333   28.86751     3

最佳答案

您在 summarize 中指定的转换按照它们出现的顺序执行，这意味着如果您更改变量值，那么这些新值将出现在后续列中(这与基本函数 tranform() 不同)。当你做

df %>% group_by(time) %>%
  summarise(glucose=mean(glucose, na.rm=TRUE),
        glucose.sd=sd(glucose, na.rm=TRUE),
        n=sum(!is.na(glucose)))

glucose=mean(glucose, na.rm=TRUE)部分已更改 glucose 的值变量，这样当您计算 glucose.sd=sd(glucose, na.rm=TRUE) 时部分， sd()没有看到原始葡萄糖值，它看到的新值是原始值的平均值。如果您重新排序列，它将起作用。

df %>% group_by(time) %>%
  summarise(glucose.sd=sd(glucose, na.rm=TRUE),
        n=sum(!is.na(glucose)), 
        glucose=mean(glucose, na.rm=TRUE))

如果您想知道为什么这是默认行为，这是因为创建一个列然后在稍后的转换中使用该列值通常很好。例如，使用 mutate()

df %>% group_by(time) %>%
  mutate(glucose_sq = glucose^2,
        glucose_sq_plus2 = glucose_sq+2)

关于r - dplyr 总结的变量结果，取决于输出变量命名，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/35349123/

27

4

0

文章推荐： javascript - 发生错误时显示的警报框

文章推荐： javascript - 如何确保 Fetch API 中的数组已填充？

文章推荐： theano - 输入维度不匹配二元交叉熵 Lasagne 和 Theano

javascript if( 变量 = =(变量 2 || 变量 3 || ...))
这个问题在这里已经有了答案: 关闭 10 年前。 Possible Duplicate: How to nest OR statements in JavaScript? 有没有办法做到这一点:
JavaScript 变量 = 变量
在 JavaScript 中有没有办法让一个变量总是等于一个变量？喜欢var1 = var2但是当var2更新，也是var1 . 例子 var var1 = document.getElementBy
python - 如何阅读此 python 代码？变量 1 = 变量 2 == 变量 3
我正在努力理解这代表什么 var1 = var2 == var3 我的猜测是这等同于: if (var2 == var3): var1 = var2 最佳答案赋值 var1 = var2
php - 变量 $_GET 变量
这个问题已经有答案了: What does the PHP error message "Notice: Use of undefined constant" mean? (2 个回答) 已关闭 8
MySQL:变量=变量+select语句
我在临时表中有几条记录，我想从每条记录中获取一个值并将其添加到一个变量中，例如 color | caption -------------------------------- re
linux - 如何将原始字符串转换为变量(变量 --> $变量)？
如何将字符串转为变量(字符串变量--> $variable)？或者用逗号分隔的变量列表然后转换为实际变量。我有 2 个文件: 列名文件行文件我需要根据字符串匹配行文件中的整行，并根据列名文件命
PHP:来自与变量(变量-变量)连接的字符串的新变量
我有一个我无法解决的基本 php 问题，我也想了解为什么! $upperValueCB = 10; $passNodeMatrixSource = 'CB'; $topValue= '$uppe
php 变量 = 变量 1 ||变量2
这可能吗？ php $variable = $variable1 || $variable2? 如果 $variable1 为空则使用 $variable2 是否存在类似的东西？最佳答案 PHP 5
perl - for 循环不会修改 `my` 变量，但会修改 `our` 变量
在 Perl 5.20 中，for 循环似乎能够修改模块作用域的变量，但不能修改父作用域中的词法变量。 #!/usr/bin/env perl use strict; use warnings; ou
JavaScript: 变量 = 变量.concat(另一个变量);
为什么这不起作用: var variable; variable = variable.concat(variable2); $('#lunk').append(variable) 我无法弄清楚这一点
c++ - 指针的大小(*变量 VS 变量)
根据我的理解，在32位机器上，指针的sizeof是32位(4字节)，而在64位机器上，它是8字节。无论它们指向什么数据类型，它们都有固定的大小。我的计算机在 64 位上运行，但是当我打印包含 * 的大
java - 变量+=值和变量=变量+值之间的区别；
例如: int a = 10; a += 1.5; 这运行得很完美，但是 a = a+1.5; 此作业表示类型不匹配:无法从 double 转换为 int。所以我的问题是:+= 运算符和= 运算符
MySQL 语法错误 |变量 = 变量 + 整数
您好，我写了这个 MySQL 存储过程，但我一直收到这个语法错误 #1064 - You have an error in your SQL syntax; check the manual that
swift - 如果(变量 == 变量 + 5)
我试图在我的场景中显示特定的奖牌，这取决于你的高分是基于关卡的目标。 // Get Medal Colour if levelHighscore goalScore { sc
c++ - 变量 = !!变量与变量 =(变量!= 0)
我必须维护相当古老的 Visual C++ 源代码的大型代码库。我发现代码如下: bIsOk = !!m_ptr->isOpen(some Parameters) bIsOk的数据类型是bool，is
php - Javascript 变量，发送到 PHP 变量
我有一个从 MySQL 数据库中提取的动态产品列表。在 list 上有一个立即联系按钮，我正在使用一个 jquery Modal 脚本，它会弹出一个表单。我的问题是尝试将产品信息变量传递给该弹出窗
c++ - 类型(变量)与(类型)变量
这个问题在这里已经有了答案: 关闭 10 年前。 Possible Duplicate: What is the difference between (type)value and type(va
javascript - 变量 === 未定义与 typeof 变量 === "undefined"
jQuery Core Style Guidelines建议两种不同的方法来检查变量是否已定义。全局变量:typeof variable === "undefined" 局部变量:variable
jquery - 动态(变量)变量(如 php 中的？)
这个问题已经有答案了: 已关闭11 年前。 Possible Duplicate: “Variable” Variables in Javascript? 我想肯定有一种方法可以在 JavaScrip
c# - 变量 1 = 变量 2 = 真；优点缺点？
在语句中使用多重赋值有什么优点或缺点吗？在简单的例子中 var1 = var2 = true; 赋值是从右到左的(我相信 C# 中的所有赋值都是如此，而且可能是 Java，尽管我没有检查后者)。但是，

首页

博学

6Ren·AI

商城

r - dplyr 总结的变量结果，取决于输出变量命名