- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
每当我想在 R 中做一些“map”py 时,我通常会尝试使用 apply
中的函数家庭。
然而,我从来没有完全理解它们之间的区别——如何{ sapply
, lapply
等} 将函数应用于输入/分组输入、输出将是什么样子,甚至输入可以是什么——所以我通常只是遍历它们,直到得到我想要的。
有人可以解释一下如何使用哪一个吗?
我目前(可能不正确/不完整)的理解是......
sapply(vec, f)
: 输入是一个向量。输出是一个向量/矩阵,其中元素 i
是 f(vec[i])
, 如果 f
给你一个矩阵有一个多元素输出 lapply(vec, f)
: 同 sapply
,但输出是一个列表? apply(matrix, 1/2, f)
: 输入是一个矩阵。输出是一个向量,其中元素 i
是 f(矩阵的行/列 i) tapply(vector, grouping, f)
: 输出是一个矩阵/数组,其中矩阵/数组中的一个元素是 f
的值在一个分组g
向量,和 g
被推送到行/列名称 by(dataframe, grouping, f)
: 让 g
成为一个分组。申请 f
到组/数据框的每一列。漂亮地打印 f
的分组和值在每一列。 aggregate(matrix, grouping, f)
: 类似于 by
,但不是漂亮地打印输出,聚合将所有内容都粘贴到数据帧中。 plyr
或
reshape
完全取代所有这些?
最佳答案
R 有许多 *apply 函数,它们在帮助文件(例如 ?apply
)中得到了巧妙的描述。然而,它们已经足够多,以至于初学者可能难以决定哪一种适合他们的情况,甚至很难记住它们。他们可能有一个普遍的感觉,即“我应该在这里使用 *apply 函数”,但一开始很难让他们保持一致。
尽管事实上(在其他答案中指出)*apply 系列的大部分功能都包含在极受欢迎的 plyr
中。包,基本功能仍然有用,值得了解。
这个答案旨在充当一种 路标帮助新用户引导他们使用正确的 *apply 函数来解决他们的特定问题。注意,这是 不是 旨在简单地反刍或替换 R 文档!希望这个答案可以帮助您确定哪个 *apply 函数适合您的情况,然后由您进一步研究。除了一个异常(exception),性能差异将不会得到解决。
# Two dimensional matrix
M <- matrix(seq(1,16), 4, 4)
# apply min to rows
apply(M, 1, min)
[1] 1 2 3 4
# apply max to columns
apply(M, 2, max)
[1] 4 8 12 16
# 3 dimensional array
M <- array( seq(32), dim = c(4,4,2))
# Apply sum across each M[*, , ] - i.e Sum across 2nd and 3rd dimension
apply(M, 1, sum)
# Result is one-dimensional
[1] 120 128 136 144
# Apply sum across each M[*, *, ] - i.e Sum across 3rd dimension
apply(M, c(1,2), sum)
# Result is two-dimensional
[,1] [,2] [,3] [,4]
[1,] 18 26 34 42
[2,] 20 28 36 44
[3,] 22 30 38 46
[4,] 24 32 40 48
如果您想要二维矩阵的行/列均值或总和,请务必colMeans
,rowMeans
, colSums
, rowSums
.lapply
下。 x <- list(a = 1, b = 1:3, c = 10:100)
lapply(x, FUN = length)
$a
[1] 1
$b
[1] 3
$c
[1] 91
lapply(x, FUN = sum)
$a
[1] 1
$b
[1] 6
$c
[1] 5005
unlist(lapply(...))
,停下来考虑sapply
. x <- list(a = 1, b = 1:3, c = 10:100)
# Compare with above; a named vector, not a list
sapply(x, FUN = length)
a b c
1 3 91
sapply(x, FUN = sum)
a b c
1 6 5005
在 sapply
的更高级用途中它将试图胁迫sapply
将它们用作矩阵的列: sapply(1:5,function(x) rnorm(3,x))
如果我们的函数返回一个二维矩阵,sapply
将做基本相同的事情,将每个返回的矩阵视为单个长向量: sapply(1:5,function(x) matrix(x,2,2))
除非我们指定 simplify = "array"
,在这种情况下,它将使用单个矩阵来构建多维数组: sapply(1:5,function(x) matrix(x,2,2), simplify = "array")
当然,这些行为中的每一个都取决于我们的函数返回相同长度或维度的向量或矩阵。sapply
但也许需要vapply
,你基本上给了 R 一个什么样的例子 x <- list(a = 1, b = 1:3, c = 10:100)
#Note that since the advantage here is mainly speed, this
# example is only for illustration. We're telling R that
# everything returned by length() should be an integer of
# length 1.
vapply(x, FUN = length, FUN.VALUE = 0L)
a b c
1 3 91
sapply
. #Sums the 1st elements, the 2nd elements, etc.
mapply(sum, 1:5, 1:5, 1:5)
[1] 3 6 9 12 15
#To do rep(1,4), rep(2,3), etc.
mapply(rep, 1:4, 4:1)
[[1]]
[1] 1 1 1 1
[[2]]
[1] 2 2 2
[[3]]
[1] 3 3
[[4]]
[1] 4
mapply
与 SIMPLIFY = FALSE
,所以保证返回一个列表。 Map(sum, 1:5, 1:5, 1:5)
[[1]]
[1] 3
[[2]]
[1] 6
[[3]]
[1] 9
[[4]]
[1] 12
[[5]]
[1] 15
rapply
是的,我第一次发布这个答案时忘记了!显然,我相信很多人都在使用它,但是 YMMV。 rapply
最好用用户定义的函数来说明: # Append ! to string, otherwise increment
myFun <- function(x){
if(is.character(x)){
return(paste(x,"!",sep=""))
}
else{
return(x + 1)
}
}
#A nested list structure
l <- list(a = list(a1 = "Boo", b1 = 2, c1 = "Eeek"),
b = 3, c = "Yikes",
d = list(a2 = 1, b2 = list(a3 = "Hey", b3 = 5)))
# Result is named vector, coerced to character
rapply(l, myFun)
# Result is a nested list like l, with values altered
rapply(l, myFun, how="replace")
x <- 1:20
定义组的因子(长度相同!): y <- factor(rep(letters[1:5], each = 4))
将 x
中的值相加在由 y
定义的每个子组中: tapply(x, y, sum)
a b c d e
10 26 42 58 74
可以在定义子组的情况下处理更复杂的示例tapply
是aggregate
, by
, ave
, ddply
等) 因此它的关于r - 分组函数(tapply、by、aggregate)和 *apply 系列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3505701/
考虑以下 - set.seed(1) x mean 使用 ave、dplyr 和 data.table 方法的组列)。 set.seed(24) df1 % group_b
我有一组汽车销售数据,我将我的数据分成不同的组,如下所示: 汽车品牌和销售年份。 toyota=subset(car, brand=="Toyota") toyota.yr = cut(toyota$
我有一个包含日期时间 (POSIXct)、“节点”(因子)和“c”(数字)列的数据集,例如: date node c 1 2011-08-14 1
有人可以指出我们如何使用tapply(或任何其他方法,plyr等)将多个函数应用于同一列,以便可以在不同的列中获得结果)。例如,如果我有一个数据框 User MoneySpent Joe
我想按组汇总各个列,我的第一个想法是使用 tapply . 但是,我无法获得 tapply上类。可以 tapply用于对多列求和? 如果没有,为什么不呢? 我广泛搜索了互联网,发现发布了许多类似的问题
是否可以在单个 tapply 或聚合语句中包含两个函数? 下面我使用了两个 tapply 语句和两个聚合语句:一个用于均值,一个用于 SD。 我更愿意结合这些陈述。 my.Data = read.ta
我正在尝试制作一个数据框,其中的最大记录数是一个因子。我想要一个包含 4 行(每个 G 行)的数据框,其中该组中 X 的最大值和相应的 Y 值。我知道我可以写一个循环,但宁愿不写。 Data%
希望这不是一个太愚蠢的问题,但作为一个 R 初学者,我对 tapply 有一个严重的问题。可以说 factors ave(values, factors, FUN=function(x) { +
我目前正尝试展示我在放置实验中收集的一些数据。只是让我们继续前进的东西。我们从 12 个土壤样本中收集了 DNA,每个样本都经过三种不同的处理,正在寻找 14 个基因。还有一个 limed/unlim
这个问题在这里已经有了答案: Calculating statistics on subsets of data [duplicate] (3 个回答) 5年前关闭。 我要加tapply结果到原始数据
在 电话 ,我有一个包含位置、样本年和计数的表。所以, Location sample_year count A 1995 1 A 1995
我无法理解当 FUN 参数为 null 时 tapply 函数的作用。 documentation说: If FUN is NULL, tapply returns a vector which ca
我正在使用 tapply 获取某些值的平均值,我得到的输出如下所示: 5 6 7 8 3066.892 1804.489 1754.675
这里是失败的调用、错误消息和一些显示有问题的长度: it <- tapply(molten, c(molten$Activity, molten$Subject, molten$variable),
我想从数据框中计算均值和标准差,其中一列用于参数,一列用于组标识符。使用 tapply 时如何计算它们?我可以用 sd(v1, group, na.rm=TRUE) ,但不适合 na.rm=TRUE使
我有一些来自 tapply 调用的输出,看起来像 1 2 4 678.2 19.3 716.2 我想把它变成一个看起来像的数据框 key valu
在数据框中,我有一个包含一些值的向量,以及每个值所属类别的向量。我想对“按类别”运行的值应用一个函数,所以我使用 tapply。例如,在我的例子中,我想重新调整每个类别中的值。 然而,tapply 的
我是一个真正的初学者,正在尝试为我的硕士论文分析一些金属管 Material 损失的数据。我想比较不同管材在一段时间内 Material 损失的标准偏差。我创建了一些子矩阵并执行了一个tapply 来
每当我想在 R 中做一些“map”py 时,我通常会尝试使用 apply 中的函数家庭。 然而,我从来没有完全理解它们之间的区别——如何{ sapply , lapply等} 将函数应用于输入/分组输
我原本期望在这两次运行之间看到相同的结果,但它们是不同的。让我怀疑我是否真的了解 dplyr 代码是如何工作的(我已经阅读了几乎所有我能在包和网上找到的关于 dplyr 的内容)。谁能解释为什么结果不
我是一名优秀的程序员,十分优秀!