gpt4 book ai didi

r - 可能的 ggplot2 错误 : inconsistent normalizations of overlaid histograms

转载 作者:行者123 更新时间:2023-12-04 11:49:01 26 4
gpt4 key购买 nike

我最近无意中发现了 ggplot2 中的一些奇怪行为。以下代码

N <- 1000
coin <- rep(c(0,1),N/2)
N1 <- sum(coin)
N0 <- sum(1-coin)
values <- rep(0,N)
values[coin==0] <- rnorm(N0,mean=0,sd=1)
values[coin==1] <- rnorm(N1,mean=0,sd=1)
dat = data.frame('Value'=values,'Category'=as.factor(coin))

创建一个包含一个数字列和一个因子列的数据集,属于两个类别的事件数量相等:

> summary(dat)
Value Category
Min. :-3.901785 0:500
1st Qu.:-0.669807 1:500
Median : 0.020031
Mean :-0.008229
3rd Qu.: 0.650803
Max. : 3.195819

但是,当绘制按类别分割的值列时,类别 1 的规范化程度比类别 0 高得多:

ggplot(dat,aes(x=Value,fill=Category)) + geom_histogram(alpha=0.5) + theme_bw()

enter image description here

这看起来很奇怪。两个直方图的 bin 宽度看起来是相等的,它们应该是相等的,但事件的总计数并不相等,它们应该是相等的。类别0直方图实际上是整个数据集的直方图:

ggplot(dat,aes(x=Value)) + geom_histogram(alpha=0.5) + theme_bw()

enter image description here

这是 ggplot2 错误,还是我犯了一些我没有注意到的错误? (顺便说一下,如果我用“A”和“B”替换类别 0 和 1,我会得到同样的结果)。

系统详情:

  • Mac OS X High Sierra
  • R 版本 3.4.0 (2017-04-21)
  • ggplot2_2.2.1

最佳答案

geom_histogram 默认通过参数 position="stack" 将条形堆叠在一起。这对于同时查看整体构成和每个部分的贡献很有用,但对于直接比较各部分就没那么有用了。您可以通过将位置参数更改为 "identity" 来覆盖它,例如:

ggplot(dat,aes(x=Value,fill=Category)) +
geom_histogram(alpha=0.5, position="identity") + theme_bw()

Histogram using position="identity"

关于r - 可能的 ggplot2 错误 : inconsistent normalizations of overlaid histograms,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50817980/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com