R ggplot2直方图覆盖每个直方图的归一化值-6ren

R ggplot2直方图覆盖每个直方图的归一化值

转载作者：行者123 更新时间：2023-12-05 07:36:52

25

4

我想创建一个比较三组的直方图。但是，我想通过每组内的计数总数而不是计数总数对每个直方图进行归一化。这是我的代码。

library(ggplot2)
library(reshape2)
# Creates dataset
set.seed(9)
df<- data.frame(values = c(runif(400,20,50),runif(300,40,80),runif(600,0,30)),labels = c(rep("med",400),rep("high",300),rep("low",600)))

levs <- c("low", "med", "high")
df$labels <- factor(df$labels, levels = levs)

ggplot(df, aes(x=values, fill=labels)) + 
    geom_histogram(aes(y=..density..), 
                   breaks= seq(0, 80, by = 2),
                   alpha=0.2, 
                   position="identity")

这会生成一个直方图，该直方图似乎已按密度归一化。

但是，我决定根据我对该密度的手动验证来交叉检查此密度图。为此，我使用了以下代码:

# Separates the low medium and high groups
df1 <- df[df$labels == "low",]
df2 <- df[df$labels == "med",]
df3 <- df[df$labels == "high",]

# creates histogram for each group that is normalized by the total number of counts
hist_temp <- hist(df1$values, breaks=seq(0,80, by=2))
    tdf <- data.frame(hist_temp$breaks[2:length(hist_temp$breaks)],hist_temp$counts)
    colnames(tdf) <- c("bins","counts")
    tdf$norm <- tdf$counts/(sum(tdf$counts))
        low1 <- tdf

hist_temp <- hist(df2$values, breaks=seq(0,80, by=2))
    tdf <- data.frame(hist_temp$breaks[2:length(hist_temp$breaks)],hist_temp$counts)
    colnames(tdf) <- c("bins","counts")
    tdf$norm <- tdf$counts/(sum(tdf$counts))
        med1 <- tdf

hist_temp <- hist(df3$values, breaks=seq(0,80, by=2))
    tdf <- data.frame(hist_temp$breaks[2:length(hist_temp$breaks)],hist_temp$counts)
    colnames(tdf) <- c("bins","counts")
    tdf$norm <- tdf$counts/(sum(tdf$counts))
        high1 <- tdf

# Combines normalized histograms for each data frame and melts them into a single vector for plotting
Tdata <- data.frame(low1$bins,low1$norm,med1$norm,high1$norm)
    colnames(Tdata) <- c("bin","low", "med", "high")
    Tdata<- melt(Tdata,id = "bin")

levs <- c("low", "med", "high")
Tdata$variable <- factor(Tdata$variable, levels = levs)

# Plot the data
ggplot(Tdata, aes(group=variable, colour= variable)) + 
    geom_line(aes(x = bin, y = value))

生成:

如您所见，它们之间存在很大差异，但我不明白为什么。他们两个的 Y 轴应该相同，但事实并非如此。因此，假设我没有犯一些愚蠢的数学错误，我相信我希望直方图看起来像折线图，但我想不出实现这一点的方法。感谢您提供任何帮助，并在此先感谢您。

编辑以添加更多无效示例:

我也尝试过在这段代码中使用 ..count../(sum(..count..)) 方法:

# Histogram where each histogram is divided by the total count of all groups    
    ggplot(df, aes(x=values, fill=labels, group=labels)) + 
        geom_histogram(aes(y=(..count../sum(..count..))), 
                       breaks= seq(0, 80, by = 2),
                       alpha=0.2, 
                       position="identity")

结果如下:

这只是归一化为所有直方图的总数。这也不反射(reflect)我在线图中看到的内容。此外，我尝试用 ..ncount.. 代替 ..count..(在分子、分母以及分子和分母中)，这也不会重新创建折线图中显示的结果。

此外，我尝试使用“position=stack”而不是使用以下代码的标识:

    ggplot(df, aes(x=values, fill=labels, group=labels)) + 
        geom_histogram(aes(y=..density..), 
                       breaks= seq(0, 80, by = 2),
                       alpha=0.2, 
                       position="stack")

得到这个结果:

这也没有反射(reflect)折线图中显示的值。

取得了进展!使用 this post by Joran 中概述的方法我现在可以生成与折线图相同的直方图。下面是代码:

# Plot where each histogram is normalized by its own counts.  
ggplot(df,aes(x=values, fill=labels, group=labels)) + 
    geom_histogram(data=subset(df, labels == 'high'),
                   aes(y=(..count../sum(..count..))), 
                   breaks= seq(0, 80, by = 2),
                   alpha = 0.2) + 
    geom_histogram(data=subset(df, labels == 'med'),
                   aes(y=(..count../sum(..count..))), 
                   breaks= seq(0, 80, by = 2),
                   alpha = 0.2) +
    geom_histogram(data=subset(df, labels == 'low'),
                   aes(y=(..count../sum(..count..))), 
                   breaks= seq(0, 80, by = 2),
                   alpha = 0.2) +
    scale_fill_manual(values = c("blue","red","green"))

生成此图:

但是，我仍然无法重新排序数据，因此图例显示为“低”然后“中”然后“高”，而不是按字母顺序排列。我已经设定了因素的水平。 (请参阅第一段代码)。有什么想法吗？

最佳答案

要对每个类别使用计数，也许 position="stack"？

ggplot(df, aes(x=values, fill=labels)) + 
  geom_histogram(aes(y=..density..), 
                 breaks= seq(0, 80, by = 2),
                 alpha=0.4, 
                 position="stack") +
  geom_density(alpha=.2, position="stack")

它给了我这个 distribution ，但似乎仍然与您的第二个情节不同。

关于R ggplot2直方图覆盖每个直方图的归一化值，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/48922858/

25

4

0

文章推荐： Nginx 在初始安装后不显示欢迎页面

文章推荐： asp.net-core - 在 Active Directory 环境中生成 JWT

文章推荐： Java JPA : create JPA queries dynamically based on permissions

Python ggplot 和 ggplotly
前 R 用户，我曾经通过 ggplotly() 函数广泛地结合 ggplot 和 plot_ly 库来显示数据。刚到 Python 时，我看到 ggplot 库可用，但在与 plotly 的简单组合
r - ggplotly 从 ggplot 中删除图例
ggplotly 使用 ggplot 删除 geom_line 图的图例。见例如以下: library(plotly) g % ggplotly() 关于r - ggplotly 从 gg
r - 设置带有端点的 ggplot 网格线/ggplot 的中断计算
我有一个 ggplot我试图以非常简约的外观制作线图的问题。我已经摆脱了图例，转而使用每行右侧的文本标签。如果标签不是那么长，它可能不会那么明显，但如果网格线停在最大 x 值(在这种情况下，在 201
r - 在一个 ggplot() 中生成多个 ggplot 图形
我想使用相同的 ggplot 代码以我的数据框中的数字为条件生成 8 个不同的数字。通常我会使用 facet_grid，但在这种情况下，我希望最终得到每个单独数字的 pdf。例如，我想要这里的每一行一
r - ggplot : conflict between geom_text and ggplot(fill)
当我在 ggplot 上使用 geom_text 时，与 ggplot 的“填充”选项发生冲突。这是问题的一个明显例子: library(ggplot2) a=ChickWeight str(a)
r - 将 ggplotly 和 ggplot 与拼凑而成？
是否可以结合使用 ggplot ly 和拼凑而成的ggplot？例子这将并排显示两个图 library(ggplot2) library(plotly) library(patchwork) a
r - ggplot、ggplotly、scale_y_连续、ylim 和百分比
我想绘制一个图表，其中 y 轴以百分比表示: p = ggplot(test, aes(x=creation_date, y=value, color=type)) + geom_line(aes
R ggplot，删除 ggsave/ggplot 中的白边
如何去除ggsave中的白边距？我的问题和Remove white space (i.e., margins) ggplot2 in R一模一样。然而，那里的答案对我来说并不理想。我不想对固定但未知
r - 文本层在 ggplot 中工作，但用 ggplotly 删除
我有一个带有一些文本层的条形图，在 ggplot 库中一切正常，但现在我想添加一些与 ggplotly 的交互性，但它无法显示文本层我更新了所有软件包但问题仍然存在 df = read.table(
r - ggplot 到 ggplotly 不适用于自定义的 geom_boxplot 宽度
当我尝试在 ggplot 中为我的箱线图设置自定义宽度时，它工作正常: p=ggplot(iris, aes(x = Species,y=Sepal.Length )) + geom_boxplot(
r - 如何通过从 ggplot 中的不同数据帧映射 aes_string 在 ggplot 中生成图例？
我正在尝试为 ggplot 密度创建一个图例，将一个组与所有组进行比较。使用此示例 - R: Custom Legend for Multiple Layer ggplot - 我可以使用下面的代码成
r - ggplot 在多面图上有一些错误。尝试使用多面 ggplot 协调 y 值
所以我试图在一个多面的 ggplot 上编辑 y 值，因为我在编织时在情节上有几个不准确之处。我对 R 和 R Markdown 很陌生，所以我不太明白为什么，例如，美国的 GDP PPP 在美元金额
python-ggplot - 如何在 Python Ggplot 上格式化 x 轴？
我需要在 python 条形图的 x 轴 ggplot 上格式化日期。我该怎么做？最佳答案使用 scale_x_date() 格式化 x 轴上的日期。 p = ggplot(aes(x='dat
r - 为什么 ggplotly 在 rmarkdown 中不能像 ggplot 一样工作
我想使用 ggplotly因为它的副作用相同ggplot甚至graphics做。我的意思是当我 knitr::knit或 rmarkdown::render我期望的 Rmd 文档 print(obj)
r - 在 Shiny 的应用程序中显示 ggplot 时，如何捕获控制台中出现的 ggplot 警告并显示在应用程序中？
我在下面有一个简单的应用程序，它显示了一个 ggplot。 ggplot 在控制台中生成警告(见底部图片)。我想捕获警告，并将其显示在应用程序的情节下方。这是我的代码: library(shiny)
r - 在 Shiny 的应用程序中缓存基本 ggplot 并允许动态修改图层(与 ggplot 等效的leafletProxy)
如果显示的基本数据集很大(下面的示例工作代码)，则在 Shiny 的应用程序中向/从 ggplot 添加/删除图层可能需要一段时间。问题是: 有没有办法缓存 ggplot(基本图)并添加/删除/修改
r - ggplot 和网格 : Find the relative x and y positions of a point in a ggplot grob
我正在组合 ggplot 的多个绘图，使用网格视口(viewport)，这是必要的(我相信)，因为我想旋转绘图，这在标准 ggplot 中是不可能的，甚至可能是 gridExtra 包。我想在两个图
R中的相对频率直方图，ggplot
我可以使用 lattice 在 R 中绘制相对频率直方图包裹: a <- runif(100) library(lattice) histogram(a) 我想在 ggplot 中获得相同的图形.我试
ggplot geom_area的R堆叠区域顺序
我需要重新安装 R，但我现在遇到了 ggplot 的一个小问题。我确信有一个简单的解决方案，我感谢所有提示! 我经常使用堆叠面积图，通常我通过定义因子水平并以相反的顺序绘制来获得所需的堆叠和图例顺序。
ggplot 中的数据重新排序
新的并且坚持使用ggplot: 我有以下数据: tribe rho preference_watermass 1 Luna2 -1.000 hypolimnic 2 OP10I-A1

首页

博学

6Ren·AI

商城

R ggplot2直方图覆盖每个直方图的归一化值