- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在使用决策树回归器。数据点数量为15000个,有15个特征。我面临的问题是,即使在高度过度拟合的条件下(我设置深度 = 25,叶子上的 min.samples = 2),预测的方差也比因变量低得多(即它仍然欠拟合)。首先,我认为这可能是偏差方差问题,但是所有预测的平均值和因变量的平均值等于小数点后 9 位。
我能想到的一个原因是我选择的功能可能根本不重要。然而它们确实是有道理的。
有人可以解释一下这里可能出了什么问题吗?任何帮助将不胜感激。谢谢
最佳答案
抛开您自己的数据细节不谈,一旦您了解决策树在幕后实际执行的操作,这原则上就不足为奇了。
回归树实际返回的输出是训练样本的因变量y
的平均值,这些样本最终出现在各自的终端节点(叶子)中。实际上,这意味着默认情况下输出是离散化的:在输出处获得的值位于终端节点中的有限值集中,它们之间没有任何插值。
max_depth
) ,当然还有数据本身。
以下情节来自 documentation应该有助于形象化这个想法 - 应该直观地清楚地看到数据的方差确实高于(离散的)预测之一:
让我们调整该示例中的代码,添加一些异常值(这会放大问题):
import numpy as np
from sklearn.tree import DecisionTreeRegressor
# dummy data
rng = np.random.RandomState(1)
X = np.sort(5 * rng.rand(80, 1), axis=0)
y = np.sin(X).ravel()
y[::5] += 3 * (0.5 - 5*rng.rand(16)) # modify here - 5*
estimator_1 = DecisionTreeRegressor(max_depth=2)
estimator_1.fit(X, y)
estimator_2 = DecisionTreeRegressor(max_depth=5)
estimator_2.fit(X, y)
y_pred_1 = estimator_1.predict(X)
y_pred_2 = estimator_2.predict(X)
现在让我们检查差异:
np.var(y) # true data
# 11.238416688700267
np.var(y_pred_1) # max_depth=2
# 1.7423865989859313
np.var(y_pred_2) # max_depth=5
# 6.1398871265574595
正如预期的那样,预测的方差随着树深度的增加而增加,但它仍然(显着)低于真实数据的方差。当然,所有的平均值都是相同的:
np.mean(y)
# -1.2561013675900665
np.mean(y_pred_1)
# -1.2561013675900665
np.mean(y_pred_2)
# -1.2561013675900665
所有这些对于新手来说可能看起来令人惊讶,特别是如果他们试图“天真地”扩展线性回归的线性思维;但是决策树存在于它们自己的领域中,这当然与线性树不同(而且相当远)。
回到我在答案中提到的离散化问题,让我们检查一下我们的预测得到了多少个唯一值;为了简单起见,仅将讨论保留在 y_pred_1
中:
np.unique(y_pred_1)
# array([-11.74901949, -1.9966201 , -0.71895532])
就是这样;从回归树中获得的每个输出都将是这三个值之一,并且绝不会任何“介于”之间的值,例如-10
、-5.82
或 [...](即无插值)。现在,至少从直觉上讲,您应该能够说服自己,这种情况下的方差不出所料地(远...)低于实际数据(默认情况下,预测的分散程度较小)...
关于python - 决策树未捕获因变量的方差,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55042015/
多个 ChildException catch block 和一个 Exception catch block 之间哪个更好? 更好,我的意思是以良好的实践方式。 举例说明: public stati
我正在尝试将脱机计算机记录在文本文件中,以便以后可以再次运行它们。似乎没有被记录或捕获。 function Get-ComputerNameChange { [CmdletBinding()]
我正在将 Scala 'try/catch' 测试代码转换为使用 'intercept' 有没有我不应该使用“拦截”的场景?使用 'intercept' 而不是 'try/catch' 的唯一好处是简
我对erlang很陌生,我正在尝试使用基本的try/catch语句来工作。我正在使用Webmachine处理一些请求,我真正想做的就是解析一些JSON数据并将其返回。如果JSON数据无效,我只想返回一
我不知道如何捕获删除按键。我发现在 ASCII 代码表中,它位于 127 位,但是 if (Key = #127) then 却无济于事。 然后我检查了 VK_DELETE 的值,它是 47。尝试使用
我很少在失败时对数据库查询使用唯一的错误消息 我经常使用简短的标准消息,例如“数据库错误/失败。请与网站管理员联系”或类似的消息。或自动发送给我 我正在寻找一种在PDO中全局设置一次try {}和ca
我有一个变量CompletableFuture completableFuture 。我希望能够使用任何类型的对象来完成它。例如:completableFuture.complete(new Stri
我认为这是基本的东西,但我不知道该怎么做。为什么我得到 IOException never throw in body of相应的 try 语句 public static void main(Str
我在此代码中遇到 JSON 异常: JSONObject jObject = new JSONObject(JSONString); pontosUsuario.setIdUsuari
我正在尝试打印出用单引号括起来的文本。 /bin/bash -lc '/home/CASPER_REPORTS/scripts/CASPER_gen_report.sh CASPER_1' /bin/
我这里遇到了一点问题。我想弄清楚如何捕获 IllegalArgumentException。对于我的程序,如果用户输入负整数,程序应该捕获 IllegalArgumentException 并询问用户
我无法理解 EJBTransactionRolledbackException。 我有实体: @Entity public class MyEntity { @Id @Generate
对于我给自己提出的以下挑战,如果社区的经验给我任何建议,我将不胜感激 - 即,这里有任何关于最佳方法/方向的指示吗? 要求 允许收集/实时监控从用户 Windows PC 到一组特定 IP 地址(或
我想在我的 ABAP 代码中捕获并处理 SAPSQL_DATA_LOSS。 我试过这个: try. SELECT * FROM (rtab_name) AS rtab
我知道捕获错误不是一个好的做法,但在这种情况下,这样做很重要。我正在尝试运行一个包含游戏一部分的 jar,但它给了我一个 unsatisfiedlink 错误,但这是有趣的部分:我正在使用这段代码:
我有一个表单页面,当我保存它时,它会覆盖数据库。表单页面中有一个文本框,允许用户输入 4000 个字符,但如果用户输入的字符超过此值,则会出现以下错误: ERROR 15:54:05 Abstrac
我想知道在python中绑定(bind)键的最简单方法 例如,默认的 python 控制台窗口出现并等待,然后在 psuedo -> if key "Y" is pressed: print (
下面是别人写的类。 我面临的问题是,当它进入parse method时与 null as the rawString ,它正在扔NumberFormatException 。 所以我想做的是,我应该捕
我有一个简单的脚本,可以捕获所有鼠标单击,除非您单击实际有效的内容。链接、Flash 视频等。我如何调整它,以便无论用户点击什么,在视频加载、新页面加载等之前,它都会发送我构建的简单 GET 请求?
我有一个带有一些选择列表的表单,当选择某些值时,这些列表将显示/隐藏更多输入字段。 问题是大多数用户都是数据输入人员,因此他们在输入数据时大量使用键盘,并且选择列表的 change 事件仅在焦点离开输
我是一名优秀的程序员,十分优秀!