gpt4 book ai didi

r - 折叠一个数据框列表并与 R 中的另一个数据框列表组合

转载 作者:行者123 更新时间:2023-12-04 02:28:43 25 4
gpt4 key购买 nike

我如何在 R 中处理两个列表,每个列表都有多个数据帧?示例数据:

set.seed(1)
set1 <- data.frame(NAME = paste("row_", 1:10, sep = ""),
SYMBOL = paste(c(sample(LETTERS, 10))),
SIGNIFICANT = sample(c("yes", "no"), 10, replace = TRUE))
set2 <- data.frame(NAME = paste("row_", 1:10, sep = ""),
SYMBOL = paste(c(sample(LETTERS, 10))),
SIGNIFICANT = sample(c("yes", "no"), 10, replace = TRUE))
set3 <- data.frame(NAME = paste("row_", 1:10, sep = ""),
SYMBOL = paste(c(sample(LETTERS, 10))),
SIGNIFICANT = sample(c("yes", "no"), 10, replace = TRUE))
set4 <- data.frame(NAME = paste("row_", 1:10, sep = ""),
SYMBOL = paste(c(sample(LETTERS, 10))),
SIGNIFICANT = sample(c("yes", "no"), 10, replace = TRUE))
files <- list(set1, set2, set3, set4)
names(files) <- paste("Set", 1:4, sep = "")
reports <- list(data.frame(SETS = c("Set1", "Set3"),
STATISTIC = runif(2)),
data.frame(SETS = c("Set2", "Set4"),
STATISTIC = runif(2)))
names(reports) <- c("Report1", "Report2")

files 是一个列表,其中包含来自分析的许多元数据数据帧。

> files$Set1
NAME SYMBOL SIGNIFICANT
1 row_1 Y no
2 row_2 D no
3 row_3 G no
4 row_4 A yes
5 row_5 B yes
6 row_6 K yes
7 row_7 N yes
8 row_8 R yes
9 row_9 W yes
10 row_10 J yes

reports 也是一个包含 2 个数据框的列表,其中包含来自双向分析和相关统计数据的主要输出。

> reports$Report1
SETS STATISTIC
1 Set1 0.4100841
2 Set3 0.8108702

请注意,files 列表中数据帧的名称对应于 reports 列表中数据帧的第 2 列。

我希望以特定方式折叠这些文件 元数据。如果 files$Set1$SIGNIFICANT == 'yes',我想将相应的 SYMBOL 附加到逗号分隔的字符串。然后,我想将该字符串附加到 reports 中的相应 Set。因此,我想要的输出如下:

> head(reports$Report1)
SETS STATISTIC SYMBOL
1 Set1 0.4100841 A, V, K, N, R, W, J
2 Set3 0.8108702 F, S, J, V

同样适用于Report2

这个例子很容易手动完成,但在我的实际项目中,length(files)=600

我试图通过 for 循环解析它,但一直遇到错误。这是我当前的迭代

output <- data.frame()
for(i in 1:length(files)){
for(j in 1:nrow(files[[i]])){
if(files[j, 3] == "Yes"){
output[i, 1]=i;
output[i, 2]=paste0(i[,2], collapse = ", ")
}
}
}

还有我当前的错误:

Error in i[[j, 3]] : incorrect number of subscripts

我已经使用 R 工作了大约 4 年,如果我知道一件事,那就是人们通常会像瘟疫一样避免循环。我知道 applylapply 等的一些变体可能会让生活变得轻松。

最佳答案

您可以使用 sapply 从每个数据帧中迭代 files 列表只保留 SIGNIFICANT = 'yes' 值并将它们折叠成一个字符串.

data <- stack(sapply(files,function(x) toString(x$SYMBOL[x$SIGNIFICANT=='yes'])))

data
# values ind
#1 A, B, K, N, R, W, J Set1
#2 B, F Set2
#3 F, S, J, V Set3
#4 W, Z, H, Q, D, M Set4

然后您可以合并 datareports 中的每个dataframe

result <- lapply(reports, function(x) merge(x,data, by.x = 'SETS', by.y = 'ind'))
result

#$Report1
# SETS STATISTIC values
#1 Set1 0.4100841 A, B, K, N, R, W, J
#2 Set3 0.8108702 F, S, J, V

#$Report2
# SETS STATISTIC values
#1 Set2 0.6049333 B, F
#2 Set4 0.6547239 W, Z, H, Q, D, M

关于r - 折叠一个数据框列表并与 R 中的另一个数据框列表组合,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/65591041/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com