r - R 中的线性回归梯度下降算法产生不同的结果-6ren

r - R 中的线性回归梯度下降算法产生不同的结果

转载作者：塔克拉玛干更新时间：2023-11-03 04:55:53

26

4

我正在尝试在不使用任何使用以下数据的包或库的情况下从头开始在 R 中实现线性回归:

UCI Machine Learning Repository, Bike-Sharing-Dataset

线性回归很简单，下面是代码:

data <- read.csv("Bike-Sharing-Dataset/hour.csv")

# Select the useable features
data1 <- data[, c("season", "mnth", "hr", "holiday", "weekday", "workingday", "weathersit", "temp", "atemp", "hum", "windspeed", "cnt")]

# Split the data
trainingObs<-sample(nrow(data1),0.70*nrow(data1),replace=FALSE)

# Create the training dataset
trainingDS<-data1[trainingObs,]

# Create the test dataset
testDS<-data1[-trainingObs,]

x0 <- rep(1, nrow(trainingDS)) # column of 1's
x1 <- trainingDS[, c("season", "mnth", "hr", "holiday", "weekday", "workingday", "weathersit", "temp", "atemp", "hum", "windspeed")]

# create the x- matrix of explanatory variables
x <- as.matrix(cbind(x0,x1))

# create the y-matrix of dependent variables

y <- as.matrix(trainingDS$cnt)
m <- nrow(y)

solve(t(x)%*%x)%*%t(x)%*%y

下一步是实现批量更新梯度下降，这是我遇到问题的地方。我不知道错误来自何处或如何修复它们，但代码有效。问题是产生的值与回归的结果完全不同，我不确定为什么。

我实现的批量更新梯度下降的两个版本如下(两种算法的结果各不相同，与回归的结果不同):

# Gradient descent 1
gradientDesc <- function(x, y, learn_rate, conv_threshold, n, max_iter) {
  plot(x, y, col = "blue", pch = 20)
  m <- runif(1, 0, 1)
  c <- runif(1, 0, 1)
  yhat <- m * x + c
  MSE <- sum((y - yhat) ^ 2) / n
  converged = F
  iterations = 0
  while(converged == F) {
    ## Implement the gradient descent algorithm
    m_new <- m - learn_rate * ((1 / n) * (sum((yhat - y) * x)))
    c_new <- c - learn_rate * ((1 / n) * (sum(yhat - y)))
    m <- m_new
    c <- c_new
    yhat <- m * x + c
    MSE_new <- sum((y - yhat) ^ 2) / n
    if(MSE - MSE_new <= conv_threshold) {
      abline(c, m) 
      converged = T
      return(paste("Optimal intercept:", c, "Optimal slope:", m))
    }
    iterations = iterations + 1
    if(iterations > max_iter) { 
      abline(c, m) 
      converged = T
      return(paste("Optimal intercept:", c, "Optimal slope:", m))
    }
  }
  return(paste("MSE=", MSE))
}

和:

grad <- function(x, y, theta) { # note that for readability, I redefined theta as a column vector
  gradient <-  1/m* t(x) %*% (x %*% theta - y) 
  return(gradient)
}
grad.descent <- function(x, maxit, alpha){
  theta <- matrix(rep(0, length=ncol(x)), ncol = 1)
  for (i in 1:maxit) {
    theta <- theta - alpha  * grad(x, y, theta)   
  }
  return(theta)
}

如果有人能解释为什么这两个函数会产生不同的结果，我将不胜感激。我还想确保我实际上正确地实现了梯度下降。

最后，我如何绘制具有不同学习率的下降结果并将此数据叠加到回归本身的结果上？

编辑以下是使用 alpha = .005 和 10,000 次迭代运行这两种算法的结果:

1)

> gradientDesc(trainingDS, y, 0.005, 0.001, 32, 10000)
TEXT_SHOW_BACKTRACE environmental variable.
[1] "Optimal intercept: 2183458.95872599 Optimal slope: 62417773.0184353"

2)

> print(grad.descent(x, 10000, .005))
                   [,1]
x0            8.3681113
season       19.8399837
mnth         -0.3515479
hr            8.0269388
holiday     -16.2429750
weekday       1.9615369
workingday    7.6063719
weathersit  -12.0611266
temp        157.5315413
atemp       138.8019732
hum        -162.7948299
windspeed    31.5442471

最佳答案

为了举例说明如何以更好的方式编写这样的函数，请考虑以下内容:

gradientDesc <- function(x, y, learn_rate, conv_threshold, max_iter) {
  n <- nrow(x) 
  m <- runif(ncol(x), 0, 1) # m is a vector of dimension ncol(x), 1
  yhat <- x %*% m # since x already contains a constant, no need to add another one

  MSE <- sum((y - yhat) ^ 2) / n

  converged = F
  iterations = 0

  while(converged == F) {
    m <- m - learn_rate * ( 1/n * t(x) %*% (yhat - y))
    yhat <- x %*% m
    MSE_new <- sum((y - yhat) ^ 2) / n

    if( abs(MSE - MSE_new) <= conv_threshold) {
      converged = T
    }
    iterations = iterations + 1
    MSE <- MSE_new

    if(iterations >= max_iter) break
  }
  return(list(converged = converged, 
              num_iterations = iterations, 
              MSE = MSE_new, 
              coefs = m) )
}

比较:

ols <- solve(t(x)%*%x)%*%t(x)%*%y

现在，

out <- gradientDesc(x,y, 0.005, 1e-7, 200000)

data.frame(ols, out$coefs)
                    ols    out.coefs
x0           33.0663095   35.2995589
season       18.5603565   18.5779534
mnth         -0.1441603   -0.1458521
hr            7.4374031    7.4420685
holiday     -21.0608520  -21.3284449
weekday       1.5115838    1.4813259
workingday    5.9953383    5.9643950
weathersit   -0.2990723   -0.4073493
temp        100.0719903  147.1157262
atemp       226.9828394  174.0260534
hum        -225.7411524 -225.2686640
windspeed    12.3671942    9.5792498

这里，x 指的是您的第一个代码块中定义的x。注意系数之间的相似性。但是，还要注意

out$converged
[1] FALSE

这样您就可以通过增加迭代次数或调整步长来提高准确性。它也可能有助于首先扩展您的变量。

关于r - R 中的线性回归梯度下降算法产生不同的结果，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/46163492/

26

4

0

文章推荐： algorithm - 找到 n 个政党的 m 个时间跨度的所有交叉点

文章推荐： java - 如何删除容器的所有子组件？

文章推荐： java - Servlet : Singleton, 单线程或多实例多线程

文章推荐： algorithm - 理解 HSL 到 RGB 色彩空间转换算法

javascript - setTimeOut 产生 233 fps 而 requestAnimationFrame 产生 61
我在 Chrome 上做了一些测试，requestAnimationFrame 产生了 61 fps 而 setTimeOut( callback, 0 ) 产生了 233 fps。如果一个人想要超
c++ - 为什么 GCC 为 0.0/0.0 产生 -nan 和 clang 和 intel 产生 +nan？
当我调试代码时，我发现 GCC 和 Clang 都为 0.0/0.0 产生 nan，这是我所期望的，但 GCC 产生的 nan 将符号位设置为 1，而Clang 将其设置为 0(如果我没记错的话，与
audio - 产生.WAV声音频率？
Closed. This question does not meet Stack Overflow guidelines。它当前不接受答案。想改善这个问题吗？更新问题，以便将其作为on-topic
R:产生 NaN
我在 R Studio 中有一个时间序列。现在我想计算这个系列的log()。我尝试了以下方法: i <- (x-y) ii <- log(i) 但是我得到以下信息:Warning message: I
javascript - 为什么 (![]+[])[+!![]+[]] 产生 "a"
我有兴趣了解 JavaScript 的内部结构.我试图阅读 SpiderMonkey 的来源和 Rhino但是绕过我的头是相当复杂的。我问的原因是:为什么像 (![]+[])[+!![]+[]] 生
delphi - MSHTML PasteHTML() 产生
我们在 Delphi 中使用标准 TWebbrowser 组件，该组件在内部使用 mshtml.dll。另外，我们使用注册表来确保页面使用新的渲染引擎( Web-Browser-Control-Spe
c# - 产生 IList 返回类型
我必须实现一个序列化/反序列化类，并且我正在使用 System.Xml.Serialization 。我有一些IList类型属性并希望在 IList 中序列化解码属于具有特定区域性信息的列表的所有十进
java - 产生 5 万个线程的可扩展性指南
我有一个 Java 应用程序，它读取包含 SQL 查询的 JSON 文件，并使用 JDBC 在数据库上触发它们。现在我有 5 万个这样的文件，我需要生成 5 万个独立线程来读取每个文件并将它们上传到
python - Tensorflow 产生 NaN
我正在尝试将 TensorFlow 入门页面上的示例线性回归程序调整为二次回归。为此，我只是添加了另一个变量并更改了函数。然而，这似乎会导致 NaN 值。这是我的代码: import numpy as
python - KernelPCA 产生 NaN
申请后KernelPCA到我的数据并将其传递给分类器 ( SVC ) 我收到以下错误: ValueError: Input contains NaN, infinity or a value too
java - 产生 IllegalStateException 的基于登录的应用程序
这背后的想法是，如果我的数据库中存在登录名(正确的用户名+密码)，我将重定向到一个页面，并且在进行此身份验证后，他们可以将消息存储在文本文件中。代码非常简单尽管我不确定为什么会收到 IllegalSt
python - 产生 OverflowError 的十进制数的幂
我有一个返回 log10 值的函数。在将它们转换为正常数字时，出现溢出错误。 OverflowError: (34, 'Numerical result out of range') 我检查了日志值，
python - nosetests 产生 ImportError
nosetests 抛出一个 ImportError，尽管我认为这是一个正确配置的 virtualenv。 ==============================================
python - ScrollLabel 产生 ValueError
我是这个网站的新手，所以如果我做错了什么，我提前道歉。当我尝试使用 kivy-garden 的 ScrollLabel 时，它给了我一个错误。基本上我正在尝试创建一个控制台日志，并且我需要能够在文本框
Java MDSJ 产生 NaN
任何人都对 MDSJ 有任何经验？以下输入仅产生 NaN 结果，我不明白为什么。文档非常稀少。 import mdsj.Data; import mdsj.MDSJ; public class MDS
java - cuMemcpyDtoH 产生 CUDA_ERROR_INVALID_VALUE
我有一个非常简单的 scala jcuda 程序，它添加了一个非常大的数组。一切都编译和运行得很好，直到我想从我的设备复制超过 4 个字节到主机。当我尝试复制超过 4 个字节时，我收到 CUDA_ER
flutter - 产生 RenderBox 溢出的英雄动画
我正在使用 Hero 组件在两个页面之间创建动画。Hero 组件用于包装一个 Image 小部件(没问题)和一个 Container 小部件(有问题)。抛出以下溢出错误: ══╡ EXCEPTIO
javascript - 产生*副作用*的表达式到底是什么？
我无法理解页面 https://developer.mozilla.org/en/JavaScript/Reference/Operators/Special/void 中的这一段: This ope
angular - asynsPipe 产生 null 作为第一个值
当在 Angular 中使用不立即触发事件的异步管道时(http 请求或任何有延迟的可观察对象)，第一个值为 null为什么会这样？如何避免这种情况？第一个变化: SimpleChange {
go - 产生 goroutines 的库中的 panic
如果一个导入的库生成了一个会 panic 的 goroutine 怎么办？在这种情况下，开发人员无法阻止程序退出。就像在这段代码中一样，使用延迟恢复调用一个错误的库没有帮助，因为该库正在生成一个 p

首页

博学

6Ren·AI

商城

r - R 中的线性回归梯度下降算法产生不同的结果