gpt4 book ai didi

r - R 中 pairwise.t.test 的数据操作

转载 作者:行者123 更新时间:2023-12-05 02:17:05 24 4
gpt4 key购买 nike

所以我正在尝试做一个成对表并保留每对的 p 值。请注意,我仍然是 R 的初学者。我的数据看起来像这样(虽然大得多):

a <- factor(c("ID1","ID2","ID3","ID4","ID5"))
b <- runif(5)
b1 <- runif(5)
b2 <- runif(5)
b3 <- runif(5)
c1 <- runif(5)
c2 <- runif(5)
c3 <- runif(5)
df <- data.frame(a,b1,b2,b3,c1,c2,c3)

其中 b1、b2、b3 应该与每一行的 c1、c2、c3 进行比较(对于 a 列中的每个 ID)。最终结果应该是这样的:

a <- cbind(a,Adjusted_P_Values)

head(a,1) 的样子:

head(a,1)
a b1 b2 b3 c1 c2
1 ID1 0.1337694 0.7347543 0.5808391 0.4324976 0.5378458
c3 Adjusted_P_value
1 0.6368778 0.99

其中每一行都有其对应的 P 值。我发现一个我认为可以解决问题的函数是 pairwise.t.test。(目前,我只是为每一行运行一个循环并进行正常的 t 检验,然后用 p.adjust 更正它们,但我不能做 pooled sd---我想要的。)

所以我现在的问题是如何构建数据以便 R 喜欢它。我可以使用 reshape2 库中的 melt.data.frame,但它不会给我正确的结构。我这样使用它:

Test_Data <- melt(df, "a", c("b1","b2","b3","c1","c2","c3"))

但我松散了行对称性。因为,当我现在执行 pairwise.t.test 时,我必须使用“a”列或由 melt 创建的“变量”列,因此我要么在重复之间进行比较,要么在身份证。所以,我的问题只是:我如何构建数据以便测试每一行并获得每一行的 p 值,并且每个处理(b 或 c)都有一个基于所有行的标准偏差(一个 sd 用于所有 b,一个用于全是c)?我一直在使用谷歌搜索寻找类似的问题(以及关于 pairwise.t.test 的教程)但没有成功。

最佳答案

我的方法与其他答案略有不同,将数据按时间度量 (1 - 3) 分为两列 bc,然后使用 t.test(...,paired=TRUE) 进行成对 t 检验。

set.seed(1234)
a <- factor(c("ID1","ID2","ID3","ID4","ID5"))
b <- runif(5)
b1 <- runif(5)
b2 <- runif(5)
b3 <- runif(5)
c1 <- runif(5)
c2 <- runif(5)
c3 <- runif(5)
df <- data.frame(a,b1,b2,b3,c1,c2,c3)
library(tidyr)
library(dplyr)
df %>%
gather(.,key="variable",value="value",-a) %>%
extract(.,variable,into = c("measure", "time"),
regex = "([A-Za-z]+)([0-9]+)") %>%
spread(.,measure,value) -> spreadData
# split by ID to conduct paired t-tests by ID
dataList <- split(spreadData,spreadData$a)
pValues <- unlist(lapply(dataList,function(x){
t.test(x$b,x$c,paired=TRUE)$p.value
}))
df$p.value <- pValues
df

...和输出:

> df
a b1 b2 b3 c1 c2
1 ID1 0.640310605 0.6935913 0.8372956 0.31661245 0.81059855
2 ID2 0.009495756 0.5449748 0.2862233 0.30269337 0.52569755
3 ID3 0.232550506 0.2827336 0.2668208 0.15904600 0.91465817
4 ID4 0.666083758 0.9234335 0.1867228 0.03999592 0.83134505
5 ID5 0.514251141 0.2923158 0.2322259 0.21879954 0.04577026
c3 p.value
1 0.4560915 0.3391364
2 0.2651867 0.5043753
3 0.3046722 0.4598274
4 0.5073069 0.6764142
5 0.1810962 0.1178471
>

注意:如果修改另一个答案的代码以包含 paired=TRUE 参数,则两个解决方案的 p 值匹配。

替代方法:对 c 和 b 之间的差异运行 t 检验

鉴于这篇关于成对 t 检验的帖子的评论,我想我应该说明一下成对检验的情况。基本上对于每个时间段 1 - 3,我们从 c 值中减去 b 值,并对差异运行 t 检验。由于我们已将数据减少为单列,因此不需要 paired= 参数,但测试产生的结果与使用 paired=TRUE 传递 2 列的结果相同> t.test() 的参数。

# alternative 2: subtract b from c and use regular t-test
# to show how pairwise works
spreadData$difference <- spreadData$c - spreadData$b
dataList <- split(spreadData,spreadData$a)
pValues <- unlist(lapply(dataList,function(x){
t.test(x$difference)$p.value
}))
df$p.value <- pValues
df

...和输出:

> spreadData$difference <- spreadData$c - spreadData$b
> dataList <- split(spreadData,spreadData$a)
> pValues <- unlist(lapply(dataList,function(x){
+ t.test(x$difference)$p.value
+ }))
> df$p.value <- pValues
> df
a b1 b2 b3 c1 c2
1 ID1 0.640310605 0.6935913 0.8372956 0.31661245 0.81059855
2 ID2 0.009495756 0.5449748 0.2862233 0.30269337 0.52569755
3 ID3 0.232550506 0.2827336 0.2668208 0.15904600 0.91465817
4 ID4 0.666083758 0.9234335 0.1867228 0.03999592 0.83134505
5 ID5 0.514251141 0.2923158 0.2322259 0.21879954 0.04577026
c3 p.value
1 0.4560915 0.3391364
2 0.2651867 0.5043753
3 0.3046722 0.4598274
4 0.5073069 0.6764142
5 0.1810962 0.1178471
>

关于r - R 中 pairwise.t.test 的数据操作,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48478756/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com