gpt4 book ai didi

r - 在不知道列名的情况下使用 NA 高效地添加数字列和行

转载 作者:行者123 更新时间:2023-12-04 18:08:44 27 4
gpt4 key购买 nike

这是一个典型的数据框:

df <- data.frame(
'ID' = c("123A","456B","789C","1011","1213")
, 'Name' = c("Alice","Bobo","Jack","Jill","Zoro")
, 'Quizzes' = c(13,8,14,NA,15)
, 'Midterm' = c(13,4,16,7,12)
, 'Final' = c(15,9,13,6,13)
)
df
ID Name Quizzes Midterm Final
1 123A Alice 13 13 15
2 456B Bobo 8 4 9
3 789C Jack 14 16 13
4 1011 Jill NA 7 6
5 1213 Zoro 15 12 13

我想添加数字列(不包括 'ID''Name' )来计算 'Grade' 列。然后我想计算每个数字列的平均值、中值、最大值、最小值和标准偏差。最后,我想将统计数据合并到原始数据框中。

一个问题是列名(本例中的 IDNameQuizzesMidtermFinal )是未知的。列数也是未知的,它可能有 2 个标识列(本例中为 IDName )或更多,并且可能有 3 个等级组件(本例中为 QuizzesMidtermFinal )或更多。

但是,我知道第一列总是包含一个唯一标识符。

可能缺少数据和/或 NA 数据。

当按列添加(水平添加)时,我想假设缺失和 NA 被视为零。当按行(垂直添加)添加(或计算任何其他统计数据)时,我想忽略缺失值和 NA 值(将它们视为异常值)。

我的困难分为两类:1) 处理 NA 和缺失值,2) 在 colnames 未知时合并数据帧。

df$Means  = rowMeans(df[sapply(df, is.numeric)])
df
ID Name Quizzes Midterm Final Means
1 123A Alice 13 13 15 13.66667
2 456B Bobo 8 4 9 7.00000
3 789C Jack 14 16 13 14.33333
4 1011 Jill NA 7 6 NA
5 1213 Zoro 15 12 13 13.33333

我知道如何删除 NA:

df$Means  = rowMeans(df[sapply(df, is.numeric)], na.rm = TRUE)
df
ID Name Quizzes Midterm Final Means
1 123A Alice 13 13 15 13.66667
2 456B Bobo 8 4 9 7.00000
3 789C Jack 14 16 13 14.33333
4 1011 Jill NA 7 6 6.50000
5 1213 Zoro 15 12 13 13.33333

但我更愿意将它们视为零。

第一个问题:是否有在不改变数据帧的情况下将 NA 视为零 (0) 的单行代码?

编辑 1: 让我澄清一下,我知道如何使用 df[is.na(df)] <-0 将数据框中的 NA 替换为 0,但我希望保持原始数据框的数据不变,保留 NA,同时计算意味着 NA 被视为零。

一点解释:sapply(df, is.numeric) 旨在忽略前两列,我不知道它们的列名。

我还想将统计数据合并到原始数据框中,以便于显示和导出到工作表。我走了一段路,但不是很远。我尝试采用此处描述的解决方案 Add new row to dataframe, at specific row-index, not appended?

# create a dataframe of sums
data.frame(ID="Mean",t(colMeans(df[sapply(df, is.numeric)], na.rm = TRUE)))
ID Quizzes Midterm Final
1 Mean 12.5 10.4 11.2

# add sums to original data frame
newRow <- data.frame(ID="Mean",t(colMeans(df[sapply(df, is.numeric)], na.rm = TRUE)))

insertRow <- function(df, r, p) {
# df = data frame
# r = new row
# p = position
df[seq(p+1,nrow(df)+1),] <- df[seq(p,nrow(df)),]
df[p,] <- r
df
}

insertRow(df[,-1],newRow,nrow(df)+1)

Name Quizzes Midterm Final
1 Alice 13.0 13.0 15.0
2 Bobo 8.0 4.0 9.0
3 Jack 14.0 16.0 13.0
4 Jill NA 7.0 6.0
5 Zoro 15.0 12.0 13.0
NA <NA> 12.5 10.4 11.2
7 <NA> NA NA NA
Warning message:
In `[<-.factor`(`*tmp*`, iseq, value = 1L) :
invalid factor level, NA generated

第二个问题:如何有效地将我的垂直总和(以及均值和中位数等)合并回原始数据框?回想一下,我不知道 colnames,我只知道第一列是唯一标识符。 编辑:下面描述了一个解决方案。

编辑 2:我避免使用 rbind,因为我正在寻找一个高效的解决方案。 url Add new row to dataframe, at specific row-index, not appended? 声明“这是一个避免(通常很慢的)rbind 调用的解决方案。”我不知道为什么 rbind 可能会很慢,但我按照建议尝试实现针对我当前问题的解决方案。

谢谢!如果需要,请务必要求澄清。

编辑 3:

我上面引用的线程 Add new row to dataframe, at specific row-index, not appended? 实际上有一个“有效”的解决方案来避免上面 insertRow 函数描述的奇怪行为(我赶紧补充说,奇怪的行为很可能是我滥用功能)。这是一个可以解决我的第二个问题的函数:

insertRow2 <- function(df, r, p) {
df <- rbind(df,r)
df <- df[order(c(1:(nrow(df)-1),p-0.5)),]
row.names(df) <- 1:nrow(df)
return(df)
}

insertRow2(df[,-1],newRow,nrow(df)+1)

Name Quizzes Midterm Final
1 Alice 13.0 13.0 15.0
2 Bobo 8.0 4.0 9.0
3 Jack 14.0 16.0 13.0
4 Jill NA 7.0 6.0
5 Zoro 15.0 12.0 13.0
6 Mean 12.5 10.4 11.2

至于我的第一个问题,由于没有任何一行,我创建了这样的自定义函数:

colMeanz <- function(df) {
df[is.na(df)] <- 0
return(colMeans(df))
}

相当不优雅,但你去吧。感谢 Llopis 在这方面的帮助。

上下文的额外解释:在计算一个学生的平均值时,将 NA 视为零是有意义的,而在计算整个类(class)的平均值时,将 NA 设为“na.rm=TRUE”是有意义的。

最佳答案

假设没有名字,我这样做是为了测试它

names(df)<- NULL

第一个问题:要将数据的 de NA 值更改为 0,您可以执行 df[is.na(df)]<-0 (还有更多解决方案,但这可能会,只需搜索在堆栈流中)

df[is.na(df)] <- 0
# NA NA NA NA NA
#1 123A Alice 13 13 15
#2 456B Bobo 8 4 9
#3 789C Jack 14 16 13
#4 1011 Jill 0 7 6
#5 1213 Zoro 15 12 13

第二个问题:您可以只执行 cbind 将新数据连接到最后一列,然后使用 cbind 连接 df 末尾的新行。例如,此数据接近平均值。我不确定您是否需要注意 rbind 函数使用的时间,如果它只是少于 100 行,那就很好了。

vector <- c(14, 7, 14, 4, 13)
df <- cbind(df, vector)
# 1 2 3 4 5 vector #Note that the name is the name of the vector
#1 123A Alice 13 13 15 14
#2 456B Bobo 8 4 9 7
#3 789C Jack 14 16 13 14
#4 1011 Jill 0 7 6 4
#5 1213 Zoro 15 12 13 13

要更改名称,您可以执行 names(df)<-names.df being names.df 一个您想要获取的名称向量。要做到这一点,中位数和 so,您可以使用应用函数,但我不太了解如何向您展示如何...

关于r - 在不知道列名的情况下使用 NA 高效地添加数字列和行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19927806/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com