gpt4 book ai didi

r - sapply on data.frame vs vector (colnames, rownames)

转载 作者:行者123 更新时间:2023-12-01 09:17:08 26 4
gpt4 key购买 nike

我有以下功能:

func <- function(scores, labels, thresholds) {
labels <- if (is.data.frame(labels)) labels else data.frame(labels)
sapply(thresholds, function(t) { sapply(labels, function(lbl) { sum(lbl[which(scores >= t)]) }) })
}

我还有以下要传递给 func 的内容。

> scores
[1] 0.187 0.975 0.566 0.793 0.524 0.481 0.005 0.756 0.062 0.124

> thresholds
[1] 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0

> var1
[1] 1 1 0 0 0 1 0 1 1 1

> df
var1 var2
1 1 0
2 1 1
3 0 0
4 0 0
5 0 0
6 1 1
7 0 1
8 1 1
9 1 1
10 1 0

这里有两个不同的调用两个 func,一个以 labels 作为向量,另一个以 labels 作为 data.frame:

> func(scores, var1, thresholds)
labels labels labels labels labels labels labels labels labels labels labels
6 5 3 3 3 2 2 2 1 1 0

> func(scores, df, thresholds)
[,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10] [,11]
var1 6 5 3 3 3 2 2 2 1 1 0
var2 5 3 3 3 3 2 2 2 1 1 0

为什么在矢量版本中将“labels”作为列名应用,而在 data.frame 版本中将“var1”和“var2”作为行名应用?

我正在寻找的是更像是矢量版本:

> func(scores, var1, thresholds)
[,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10] [,11]
labels 6 5 3 3 3 2 2 2 1 1 0

创建上面的变量:

scores <- sample(seq(0, 1, 0.001), 10, replace = T)
thresholds <- seq(0, 1, 0.1)
var1 <- sample(c(0, 1), 10, replace = T)
var2 <- sample(c(0, 1), 10, replace = T)
df <- data.frame(var1, var2)

最佳答案

尝试切换嵌套 sapply 的顺序年代:

func <- function(scores, labels, thresholds) {
labels <- if (is.data.frame(labels)) labels else data.frame(labels)
t(sapply(labels, function(lbl) {
sapply(thresholds, function(t) sum(lbl[which(scores >= t)]))
}))
}

来自 ?sapply :

‘sapply’ is a user-friendly version and wrapper of ‘lapply’ by default returning a vector, matrix or, if ‘simplify = "array"’, an array if appropriate, by applying ‘simplify2array()’.

要了解原始函数中发生了什么,考虑每个 sapply 可能会很有用。依次。

内在 sapply(labels, ...)创建一个长度为 k 的命名向量(其中 k 是 labels 中的列数——因此 k 在向量情况下为 1,在数据帧示例中为 2),其中向量元素的名称由列给出名称(labels 在矢量情况下,var1/var2 在数据框示例中)。

外层 sapply(thresholds, ...)运行内部 sapply 11 次,每次都有不同的值 t .所以在向量的情况下,你最终会得到 11 个长度为 1 的向量,其中每个向量中唯一一个元素的名称是 labels , 其中 sapply返回(“简化”)为一个长度为 11 的向量。

通过切换 sapply 的顺序s、内sapply现在返回一个长度为 11 的未命名向量。外部 sapply然后这样做k次。在向量情况下,k 为 1,返回的向量名称为 labels .在数据帧示例中,k 为 2,返回的 2 个向量的名称为 var1var2 .

(给 thresholds 向量中的元素命名也是一个有用的练习;例如 thresholds <- setNames(seq(0, 1, 0.1), LETTERS[1:11]) 并重新运行 func 以查看会发生什么。)

关于r - sapply on data.frame vs vector (colnames, rownames),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41309215/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com