gpt4 book ai didi

R 在数据框上使用应用以返回顺序和值

转载 作者:行者123 更新时间:2023-12-02 03:28:18 25 4
gpt4 key购买 nike

我的数据目前是这样的

x          | y          | z
2015-02-12 | 2015-02-03 | 2015-02-06
2015-01-20 | 2015-01-30 | 2015-01-15

我需要将每一行从最早日期到最旧日期排序。我希望输出返回索引以及排序顺序的值。例如,我想要:

1st_index | 2nd_index | 3rd_index | 1st_value  | 2nd_value  | 3rd_value
2 | 3 | 1 | 2015-02-03 | 2015-02-06 | 2015-02-12
3 | 1 | 2 | 2015-01-15 | 2015-01-20 | 2015-01-30

我写了一个 for 循环,但是我有太多行数据,速度太慢了。我想使用 apply,但我真的很难。

我想做类似下面的事情,但这绝对不会返回预期的输出。

myfunc <- function(x){
a = order(x, na.last=TRUE)
y = c(a[1],a[2],a[3],x[a[1]],x[a[2]],x[a[3]])
}

test <- apply(df, 1, function(x) myfunc(x))

提前感谢您提供的任何帮助!

最佳答案

这是一些数据

orig = as.data.frame(split(Sys.Date() + runif(12, 100, 200), 1:3))

将数据放入“长”形式(do.call(c, unname(orig)) 保留 orig 类,大概是 Date-like 类之一,否则 order() 不会行不通;重要的是要始终保持数据的类,apply() 方法不是)。

df = data.frame(row=as.vector(row(orig)), col=as.vector(col(orig)), 
value=do.call(c, unname(orig)))

根据行和值找出一个顺序

o = order(df$row, df$value, na.last=TRUE)
df = df[o, , drop=FALSE]

并将结果转换成你想要的输出

orig[] = split(df$value, seq_along(orig))  # original class / names
cbind(matrix(df$col, ncol=ncol(orig), byrow=TRUE), orig)

for 循环的实现可能是

## pre-allocate
result = cbind(matrix(0L, nrow(orig), ncol(orig)), orig)
## fill
cidx = seq_len(ncol(orig))
for (i in seq_len(nrow(result))) {
o = order(orig[i,], na.last=TRUE)
result[i, cidx] = o
result[i, -cidx] = orig[i, o]
}

for 循环实现不太可能非常有效,因为更新 data.frame 的行非常慢;在这里尝试提高效率会很快导致上面的“long data.frame”解决方案。目前提供的各种解决方案有

f0 = function(x) {
as.data.frame(t(apply(x, 1, function(x) {
o = order(x, na.last=TRUE)
c(o, x[o])
})))
}

f1 = function(x) {
df = data.frame(row=as.vector(row(x)), col=as.vector(col(x)),
value=do.call(c, unname(x)))
o = order(df$row, df$value, na.last=TRUE)
df = df[o, , drop=FALSE]
x[] = split(df$value, seq_along(x)) # original class / names
cbind(matrix(df$col, ncol=ncol(x), byrow=TRUE), x)
}

我们知道解决方案不同

identical(f0(orig), f1(orig))
## [1] FALSE

这里有一些时间

library(microbenchmark)
microbenchmark(f0(orig), f1(orig), times=5)
## Unit: milliseconds
## expr min lq mean median uq max neval
## f0(orig) 42.011069 42.12418 42.66665 42.554372 43.034768 43.933247 10
## f1(orig) 2.555936 2.59881 2.70855 2.660635 2.803732 3.017764 10

f1() 似乎更接近正确且更快;也许这有点神秘,并且需要注意确保保留日期类。

关于R 在数据框上使用应用以返回顺序和值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29018363/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com