gpt4 book ai didi

r - R 中 nls() 的分段函数拟合

转载 作者:行者123 更新时间:2023-12-02 11:57:42 29 4
gpt4 key购买 nike

我正在尝试将两部分线拟合到数据。

以下是一些示例数据:

x<-c(0.00101959664756622, 0.001929220749155, 0.00165657261751726, 
0.00182514724375389, 0.00161532360585458, 0.00126991061099209,
0.00149545009309177, 0.000816386510029308, 0.00164402569283353,
0.00128029006251656, 0.00206892841921455, 0.00132378793976235,
0.000953143467154676, 0.00272964503695939, 0.00169743839571702,
0.00286411493120396, 0.0016464862337286, 0.00155672067449593,
0.000878271561566836, 0.00195872573138819, 0.00255412836538339,
0.00126212428137799, 0.00106206607962734, 0.00169140916371657,
0.000858015581562961, 0.00191955159274793, 0.00243104345247067,
0.000871042201994687, 0.00229814264111745, 0.00226756341241083)

y<-c(1.31893118849162, 0.105150790530179, 0.412732029152914, 0.25589805483046,
0.467147868109498, 0.983984462069833, 0.640007862668818, 1.51429617241365,
0.439777145282391, 0.925550163462951, -0.0555942758921906, 0.870117027565708,
1.38032147826294, -0.96757052387814, 0.346370836378525, -1.08032147826294,
0.426215616848312, 0.55151485221263, 1.41306889485598, 0.0803478641720901,
-0.86654892295057, 1.00422341998656, 1.26214517662281, 0.359512373951839,
1.4835398594013, 0.154967053938309, -0.680501679226447, 1.44740598234453,
-0.512732029152914, -0.359512373951839)

我希望能够定义最合适的两部分线(所示为手绘示例)

plot

然后我定义一个分段函数,它应该找到一个两部分线性函数。该定义基于两条线的梯度及其相互截距,这应该完全定义线。

# A=gradient of first line segment
# B=gradient of second line segment
# Cx=inflection point x coord
# Cy=inflexion point y coord

out_model <- nls(y ~ I(x <= Cx)*Cy-A*(Cx-x)+I(x > Cx)*Cy+B*(x),
data = data.frame(x,y),
start = c(A=-500,B=-500,Cx=0.0001,Cy=-1.5) )

但是我收到错误:

Error in nls(y ~ I(x <= Cx) * Cy - A * (Cx - x) + I(x > Cx) * Cy + B * : singular gradient

我从Finding a curve to match data得到了基本方法

有什么想法我哪里出错了吗?

最佳答案

我没有一个优雅的答案,但我确实有一个答案。

(请参阅下面的编辑以获得更优雅的答案)

如果Cx足够小,以至于没有数据点可以容纳ACy,或者如果Cx 足够大,以至于没有数据点可以容纳 BCy,QR 分解矩阵将是奇异的,因为 会有许多不同的值CxACyCxBCy分别将同样适合数据。

我通过阻止安装Cx来测试这一点。如果我将 Cx 修复为(例如)Cx = Mean(x)nls() 可以毫无困难地解决问题:

nls(y ~ ifelse(x < mean(x),ya+A*x,yb+B*x), 
data = data.frame(x,y),
start = c(A=-1000,B=-1000,ya=3,yb=0))

...给出:

Nonlinear regression model
model: y ~ ifelse(x < mean(x), ya + A * x, yb + B * x)
data: data.frame(x, y)
A B ya yb
-1325.537 -1335.918 2.628 2.652
residual sum-of-squares: 0.06614

Number of iterations to convergence: 1
Achieved convergence tolerance: 2.294e-08

这让我想到,如果我转换 Cx 使其永远不会超出范围 [min(x),max(x)],那可能解决这个问题。事实上,我希望至少有三个数据点可用于拟合“A”线和“B”线,因此 Cx 必须位于 的第三低值和第三高值之间x。使用 atan() 函数和适当的算术让我将范围 [-inf,+inf] 映射到 [0,1],所以我得到了代码:

trans <- function(x) 0.5+atan(x)/pi
xs <- sort(x)
xlo <- xs[3]
xhi <- xs[length(xs)-2]
nls(y ~ ifelse(x < xlo+(xhi-xlo)*trans(f),ya+A*x,yb+B*x),
data = data.frame(x,y),
start = c(A=-1000,B=-1000,ya=3,yb=0,f=0))

但是不幸的是,我仍然从这段代码中得到初始参数处的奇异梯度矩阵错误,因此问题仍然是过度参数化的。正如 @Henrik 所建议的,双线性拟合和单线性拟合之间的差异对于这些数据来说并不大。

不过,我仍然可以获得双线性拟合的答案。由于 nls() 解决了 Cx 修复后的问题,因此我现在可以通过简单地执行以下操作来找到使残留标准误差最小化的 Cx 值使用optimize()进行一维最小化。这不是一个特别优雅的解决方案,但总比没有好:

xs <- sort(x)
xlo <- xs[3]
xhi <- xs[length(xs)-2]
nn <- function(f) nls(y ~ ifelse(x < xlo+(xhi-xlo)*f,ya+A*x,yb+B*x),
data = data.frame(x,y),
start = c(A=-1000,B=-1000,ya=3,yb=0))
ssr <- function(f) sum(residuals(nn(f))^2)
f = optimize(ssr,interval=c(0,1))
print (f$minimum)
print (nn(f$minimum))
summary(nn(f$minimum))

...给出输出:

[1] 0.8541683
Nonlinear regression model
model: y ~ ifelse(x < xlo + (xhi - xlo) * f, ya + A * x, yb + B * x)
data: data.frame(x, y)
A B ya yb
-1317.215 -872.002 2.620 1.407
residual sum-of-squares: 0.0414

Number of iterations to convergence: 1
Achieved convergence tolerance: 2.913e-08

Formula: y ~ ifelse(x < xlo + (xhi - xlo) * f, ya + A * x, yb + B * x)

Parameters:
Estimate Std. Error t value Pr(>|t|)
A -1.317e+03 1.792e+01 -73.493 < 2e-16 ***
B -8.720e+02 1.207e+02 -7.222 1.14e-07 ***
ya 2.620e+00 2.791e-02 93.854 < 2e-16 ***
yb 1.407e+00 3.200e-01 4.399 0.000164 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.0399 on 26 degrees of freedom

Number of iterations to convergence: 1

AB 以及 yayb 的值之间没有太大差异f 的最佳值,但存在一些差异。

(编辑——优雅的答案)

将问题分为两步后,就不再需要使用 nls() 了。 lm() 工作正常,如下所示:

function (x,y) 
{
f <- function (Cx)
{
lhs <- function(x) ifelse(x < Cx,Cx-x,0)
rhs <- function(x) ifelse(x < Cx,0,x-Cx)
fit <- lm(y ~ lhs(x) + rhs(x))
c(summary(fit)$r.squared,
summary(fit)$coef[1], summary(fit)$coef[2],
summary(fit)$coef[3])
}

r2 <- function(x) -(f(x)[1])

res <- optimize(r2,interval=c(min(x),max(x)))
res <- c(res$minimum,f(res$minimum))

best_Cx <- res[1]
coef1 <- res[3]
coef2 <- res[4]
coef3 <- res[5]
plot(x,y)
abline(coef1+best_Cx*coef2,-coef2) #lhs
abline(coef1-best_Cx*coef3,coef3) #rs
}

...给出:

enter image description here

关于r - R 中 nls() 的分段函数拟合,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15874214/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com