r - 评估公式的快速方法？-6ren

r - 评估公式的快速方法？

转载作者：行者123 更新时间：2023-12-04 05:26:55

26

4

我使用 dyn 或 dynlm 来预测使用滞后变量的时间序列。

然而，在这两种情况下，预测函数一次只计算一个时间步，在我的计算机上每步需要 24 毫秒的恒定时间，或者我的数据集需要大约 1.8 小时，这是超长的，因为整个回归需要大约10 秒。

所以，我在想，也许最快的方法可能只是手动评估公式？

那么，是否有某种方法可以评估给定 data.frame 或当前环境或类似环境中给定值的公式？

我正在考虑以下方面的事情:

evalMagic( load ~ temperature + time, data.frame( temperature = 10, time = 4 ) )

我想，在我写这篇文章的时候，我们需要以某种方式处理这些系数，比如:

evalMagic( load ~ temperature + time, data.frame( temperature = 10, time = 4 ), model$coefficients )

.... 所以这就提出了以下问题:

这不是 predict 应该做的吗？

为什么预测这么慢？

我有什么选择可以使预测更快一点？毕竟，它不是反转任何矩阵或其他东西，它只是一点算术!

最佳答案

最后我写了自己的滞后实现。它很笨拙，也不漂亮，但速度要快得多。它可以在我蹩脚的笔记本电脑上在 4 秒内处理 1000 行。

# lags is a data.frame, eg:
#   var  amount
#   y    1
#   y    2
addLags <- function( dataset, lags ) {
    N <- nrow(dataset)
    print(lags)
    if( nrow(lags) > 0 ) {
        print(lags)
        for( j in 1:nrow(lags) ) {
            sourcename <- as.character( lags[j,"var"] )
            k <- lags[j,"amount"]
            cat("k",k,"sourcename",sourcename,"\n")
            lagcolname <- sprintf("%s_%d",sourcename,k)
            dataset[,lagcolname] <- c(rep(0,k), dataset[1:(N-k),sourcename])
        }
    }
    dataset
}

lmLagged <- function( formula, train, lags ) {
    # get largest lag, and skip that
    N <- nrow(train)
    skip <- 0
    for( j in 1:nrow(lags) ) {
        k <- lags[j,"amount"]
        skip <- max(k,skip)
    }
    print(train)
    train <- addLags( train, lags )
    print(train)
    lm( formula, train[(skip+1):N,] )
}

# pass in training data, test data,
# it will step through one by one
# need to give dependent var name
# lags is a data.frame, eg:
#   var amount
#   y    1
#   y    2
predictLagged <- function( model, train, test, dependentvarname, lags ) {
    Ntrain <- nrow(train)
    Ntest <- nrow(test)
    test[,dependentvarname] <- NA
    testtraindata <- rbind( train, test )
    testtraindata <- addLags( testtraindata, lags )
    for( i in 1:Ntest ) {
       thistestdata <- testtraindata[Ntrain + i,]
       result <- predict(model,newdata=thistestdata)
       for( j in 1:nrow(lags) ) {
            sourcename <- lags[j,"var"]
            k <- lags[j,"amount"]
            lagcolname <- sprintf("%s_%d",sourcename,k)
            testtraindata[Ntrain + i + k,lagcolname] <- result
       }
       testtraindata[Ntrain+i,dependentvarname] <- result
    }
    return( testtraindata[(Ntrain+1):(Ntrain + Ntest),dependentvarname] )    
}

library("RUnit")

# size of training data
N <- 6
predictN <- 50

# create training data, which we can get exact fit on
set.seed(1)
x = sample( 100, N )
traindata <- numeric()
traindata[1] <- 1 + 1.1 * x[1]
traindata[2] <- 2 + 1.1 * x[2]
for( i in 3:N ) {
   traindata[i] <- 0.5 + 0.3 * traindata[i-2] - 0.8 * traindata[i-1] + 1.1 * x[i]
}
train <- data.frame(x = x, y = traindata, foo = 1)
#train$x <- NULL

# create testing data, bunch of NAs
test <- data.frame( x = sample(100,predictN), y = rep(NA,predictN), foo = 1)

# specify which lags we need to handle
# one row per lag, with name of variable we are lagging, and the distance
# we can then use these in the formula, eg y_1, and y_2
# are y lagged by 1 and 2 respectively
# It's hacky but it kind of works...
lags <- data.frame( var = c("y","y"), amount = c(1,2) ) 

# fit a model
model <- lmLagged(  y ~ x + y_1 + y_2, train, lags )
# look at the model, it's a perfect fit. Nice!
print(model)

print(system.time( test <- predictLagged( model, train, test, "y", lags ) ))
#checkEqualsNumeric( 69.10228, test[56-6], tolerance = 0.0001 )
#checkEquals( 2972.159, test$y[106-6] )
print(test)

# nice plot
plot(test, type='l')

输出:

> source("test/test.regressionlagged.r",echo=F)

Call:
lm(formula = formula, data = train[(skip + 1):N, ])

Coefficients:
(Intercept)            x          y_1          y_2  
        0.5          1.1         -0.8          0.3  

   user  system elapsed 
  0.204   0.000   0.204 
 [1]  -19.108620  131.494916  -42.228519   80.331290  -54.433588   86.846257
 [7]  -13.807082   77.199543   12.698241   64.101270   56.428457   72.487616
[13]   -3.161555   99.575529    8.991110   44.079771   28.433517    3.077118
[19]   30.768361   12.008447    2.323751   36.343533   67.822299  -13.154779
[25]   72.070513  -11.602844  115.003429  -79.583596  164.667906 -102.309403
[31]  193.347894 -176.071136  254.361277 -225.010363  349.216673 -299.076448
[37]  400.626160 -371.223862  453.966938 -420.140709  560.802649 -542.284332
[43]  701.568260 -679.439907  839.222404 -773.509895  897.474637 -935.232679
[49] 1022.328534 -991.232631

这 91 行代码大约需要 12 个小时的工作时间。好吧，我承认我玩了一段时间植物和僵尸。所以，10个小时。加上午餐和晚餐。尽管如此，还是有很多工作要做。

如果我们将 predictN 更改为 1000，我会从 system.time 调用中得到大约 4.1 秒。

我认为它更快，因为:

我们不使用时间序列；我怀疑这会加快速度

我们不使用动态lm库，只使用普通lm；我想这会稍微快一点

我们只将单行数据传递给每个预测的预测，我认为这要快得多，例如使用 dyn$lm 或 dynmlm，如果滞后为 30，则需要将 31 行数据传递给预测 AFAIK

少了很多 data.frame/matrix 复制，因为我们只是在每次迭代时就地更新滞后值

编辑:更正了小错误，其中 predictLagged 返回了一个多列数据帧，而不仅仅是一个数字向量
编辑 2:更正了不能添加多个变量的较小错误。还协调了滞后的注释和代码，并将滞后结构更改为“var”和“amount”以代替“name”和“lags”。此外，更新了测试代码以添加第二个变量。

编辑:这个版本有很多错误，我知道，因为我对它进行了更多的单元测试并修复了它们，但是复制和粘贴非常耗时，所以我会在几天后更新这篇文章，一旦我的截止日期结束。

关于r - 评估公式的快速方法？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/13100532/

26

4

0

文章推荐： coldfusion - 如何动态调用 CFC 函数

文章推荐： WMI:PCIExpress

文章推荐： java - 从数组列表中删除对象

快速/更改循环中变量的名称
如何更改循环中变量的名称？比如 number1 、 number2 、 number3 、 number4 ？ var array = [2,4,6,8] func ap ( number1: Int
iOS延迟更改背景颜色(快速)
我想设置 View 的背景颜色并在一定延迟后将其更改为另一种颜色。这是我的尝试方式: print("setting color 1") self.view.backgroundColor = UICo
快速 session 在请求之间不持久
我在使用 express-session 时遇到问题。 session 数据不会在请求之间持续存在。正如您在下面的代码中看到的那样，/join 路由设置了一些 session 属性，但是当 /sur
快速 Steam 叶环
我试图从叶渲染器获得一个非常简单的结果，用于快速 Steam 的 for 循环。我正在上传叶文件 HTML，因为它不接受此处格式正确的代码 - 下面的pizza.swift代码- import
performance - 快速、简单的程序员编辑器
你们中有人有什么好的链接可以与我分享吗？我正在寻找一个 FAST 程序员编辑器，它可以非常快速地打开包含超过 100, 000 行代码的文件？我目前正在使用记事本自动取款机，打开一个 29000 行长
r - 快速、高效地循环数百万行并匹配列
我现在正在处理眼动追踪数据，因此拥有一个巨大的数据集(想想数百万行)，因此希望有一种快速的方法来完成此任务。这是它的简化版本。数据告诉您眼睛在每个时间点正在查看的位置以及我们正在查看的每个文件。 X
ios - 选择提示音-快速
我是新手，想为计时器或其他设备选择提示音。如何打开此列表，以选择其中一种声音？ Alert sound list 最佳答案您将无法在应用中使用系统声音。但是，您可以包括自己的声音文件，并将其显示
arrays - 将顺序字符串构建到数组中(快速)
我编写了以下代码来构建具有顺序字符串的数组。它的工作方式与我预期的一样，但我希望它能更快地运行。有没有更有效的方法在PowerShell中产生我想要的结果？我是PowerShell的新手，非常感谢
r - 快速、简洁地生成唯一矩阵行的有序频率计数的方法
我有一个包含一些非唯一行的矩阵，例如: x 尝试 y <- rle(apply(x, 1, paste, collapse = " ")) # y$lengths is the vector con
ios - 键盘打开时移动菜单(快速)
我的函数“keyboardWillShown”有问题。所以我想要的是菜单打开时，菜单正好出现在键盘上方。它可以在Iphone 8 plus，8、7、6上完美运行。但是，当我在模拟器上运行Iphone
ios - 第二次API调用后应用崩溃(快速)
我正在尝试通过Swift 5中的HTTP get方法从API提取数据。它在启动时成功加载了数据，但是当我刷新页面时，它说“索引超出范围”，这是因为数据是不再会在我的日志中读取，因此索引中没有任何内容。
ios - 将时间戳转换为其他时区(快速)
我想做什么: 从我的数据库中获取时间戳并将其转换为用户的时区。我的代码: let tryItNow = "\(model.timestampName)" let format = D
ios - 查找字符串的宽度(快速)
给定字体名称和字体大小，如何查找字符串的宽度(CGFloat)？ (目标是将UIView的宽度设置为足以容纳字符串的宽度。) 我有两个字符串:一个重复“1”，重复36次，另一个重复“M”，重复36次。
ios - JSON解析(快速)
我正在尝试解析此JSON ["Items": ( { AccountBalance = 0; AlphabetType = 3; Description = "\U0631\U
ios - 根据自动布局更改UILabel中的字体大小(快速)
我在UINavigationBar内放置了一个UILabel。我想根据navigationBar的高度增加该标签的字体大小。当navigationBar很大时，我希望字体大小更大；当滚动并缩小nav
ios - 消除数字中的多个小数点(快速)
我想将用户输入限制为仅有效数字并使用以下内容: func textView(_ textView: UITextView, shouldChangeTextIn range: NSRange, rep
C# - 图像比较(快速)
目前我有一个包含超过 100.000 张图像的数据库，它们大小不一或类似，但我想为我的公司制作以下内容: 我插入/上传一张图片，系统返回最有可能相同的图片。我不知道使用什么算法，但它需要快速。我可以预
ios - 按下按钮时发生的操作 - 快速
在我的 swift 项目中，我有一个按钮，我想在标签上打印按下该按钮的时间。如何解决这个问题？最佳答案添加到DHEERAJ的答案中，您只需在func press(sender: UIButton
arrays - 我想从解析加载数组数据(快速)
我必须发表评论，尝试在解析中导入数组。然而，有一个问题。当我尝试从 Parse 加载数组时，我的输出是 ("Blah","Blah","Blah")这是一个元组...而不是一个数组 TT... 如何
swift - 简化嵌套 if 快速
我的应用程序有一个名为 MyDevice 的类，我用它来与硬件通信。该硬件是可选的，实例变量也是可选的: var theDevice:MyDevice = nil 然后，在应用程序中，我必须初始化设备

首页

博学

6Ren·AI

商城

r - 评估公式的快速方法？