gpt4 book ai didi

r - R语言: How do I print/see summary statistics for sample subset?

转载 作者:行者123 更新时间:2023-12-04 16:28:02 27 4
gpt4 key购买 nike

这些是有关R的统计编程的一些新手问题,我一直无法在线找到答案。我的数据框在下面的代码中标记为“eitc”。

1)在加载到数据框中后,我想查看摘要统计信息。我使用了以下功能:

eitc <- read.dta(file="/Users/Documents/eitc.dta")
summary(eitc)
sapply(eitc,mean,na.rm=TRUE) #for sample mean, min, max, etc.

满足某些条件时,如何在数据框上找到摘要统计信息。例如,当变量“children”大于或等于1时,我想查看所有变量的摘要统计信息。等效的Stata代码为:
summarize if children >= 1

2)同样,当满足某些条件时,如何查找特定参数?例如,当两个“post93”变量均等于零且“anykids”变量均等于1时,我想查找变量“work”的均值。等效的Stata代码为:
mean work if post93==0 & anykids==1

3)理想情况下,当我运行上述汇总统计信息时,我想找出计算中包含的观察数/是否符合标准。

4)当我在数据框中读取数据时,很高兴看到数据集中包含了多少个观察值(也许还有多少行缺少值或“NA”)。

5)另外,我一直在使用以下代码创建虚拟变量。这是正确的方法还是有更有效的途径?
post93.dummy <- as.numeric(eitc$year>1993)
eitc=cbind(eitc,post93.dummy)

最佳答案

subset可以满足您的许多要求,例如

summary(subset(eitc, post93 == 0 & anykids == 1, select=work))
nrow(subset(eitc, post93 == 0 & anykids == 1, select=work)) # for number of obs.
?subset文档提供了很好的示例。

附加虚拟变量的 cbind方法是不必要的。做就是了:
eitc$post93.dummy <- as.numeric(eitc$year>1993) 

关于r - R语言: How do I print/see summary statistics for sample subset?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4835830/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com