作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
在我的数据集中,我有很多分类变量,我想找出这些变量之间的关联。但是,我正在努力弄清楚如何使其自动化,这样我就不必在每对之间进行卡方检验。
例如,假设我有一个数据框。
#Create variables
set.seed(123)
fruit <-c('apple','orange','orange','pear')
fav_number <- seq(from=1,to=4,1)
place <- c('nigeria','india','usa','mexico')
weather <- c('summer','winter','spring','summer')
car <- c('bmw','mercedes','honda','honda')
#Create dataframe
df <- as.data.frame(cbind(fruit,fav_number,place,weather,car))
#Convert all columns to factors
df[sapply(df, is.character)] <- lapply(df[sapply(df, is.character)],
as.factor)
所以我的输出/df 看起来像:
fruit fav_number place weather car
1 apple 1 nigeria summer bmw
2 orange 2 india winter mercedes
3 orange 3 usa spring honda
4 pear 4 mexico summer honda
我可以在两个变量之间进行卡方检验:
chisq.test(table(df$place,df$fav_number))
但我想对每个变量与另一个变量进行相同的测试。我正在寻找的输出类似于您使用具有连续变量的 corr 矩阵获得的输出。
最佳答案
#Create variables
set.seed(123)
fruit<-c('apple','orange','orange','pear')
fav_number<-seq(from=1,to=4,1)
place<-c('nigeria','india','usa','mexico')
weather<-c('summer','winter','spring','summer')
car<-c('bmw','mercedes','honda','honda')
#Create dataframe
df<-as.data.frame(cbind(fruit,fav_number,place,weather,car))
#Convert all columns to factors
df[sapply(df,is.character)]<-lapply(df[sapply(df,is.character)],as.factor)
eg<-expand.grid(names(df),names(df))
eg<-eg[-which(eg$Var1==eg$Var2),]
for(i in 1:nrow(eg)) {
print(rep("#",20))
cat(as.character(eg[i,1]),as.character(eg[i,2]),"\n")
print(chisq.test(table(df[,eg[i,1]],df[,eg[i,2]])))
}
关于r - 所有变量的独立性卡方检验,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/72968705/
我正在尝试使用 mersenne twister 从各种分布中生成样本。我有一个生成器,它用于生成所有这些生成器。这里发生了一些奇怪的事情(至少对我而言)。一方面,计算各种样本的相关系数几乎为零,这看
我是一名优秀的程序员,十分优秀!