- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
当我使用交叉验证训练 SVC 时,
y_pred = cross_val_predict(svc, X, y, cv=5, method='predict')
cross_val_predict
为 X 中的每个元素返回一个类预测,因此 y_pred.shape = (1000,)
当 m=1000
时。这是有道理的,因为 cv=5
因此 SVC 在 X 的不同部分上训练和验证了 5 次。在五次验证中的每一次中,都对五分之一的实例进行了预测(m/5 = 200
)。随后,5 个向量(每个包含 200 个预测)被合并到 y_pred
。
考虑到所有这些,我可以合理地使用 y_pred
和 y 来计算 SVC 的整体精度。
score = accuracy_score(y, y_pred)
但是(!)cross_val_predict
的文档指出:
The result of cross_val_predict may be different from those obtained using cross_val_score as the elements are grouped in different ways. The function cross_val_score takes an average over cross-validation folds, whereas cross_val_predict simply returns the labels (or probabilities) from several distinct models undistinguished. Thus, cross_val_predict is not an appropriate measure of generalisation error.
有人可以换句话说,为什么 cross_val_predict
不适合测量泛化误差,例如通过 accuracy_score(y, y_pred)
?
编辑:
我首先假设 cv=5
在 5 个验证中的每一个中都会对 X 的所有实例进行预测。但这是错误的,只对 1/5 的实例进行预测X 每次验证。
最佳答案
cross_val_predict
和 cross_val_score
之间的差异描述得非常清楚 here那里还有另一个链接,所以你可以关注兔子。
本质上:
cross_val_score
返回得分每个折叠cross_val_predict
对每个数据点进行折叠预测。现在,您无法知道 cross_val_predict
中的哪些预测来自哪个折叠,因此您无法像 cross_val_score
那样计算每次折叠的平均值。您可以对 cross_val_predict
的 cross_val_score
和 accuracy_score
进行平均,但是 average of averages is not equal to average ,因此结果会有所不同。
如果一次折叠的准确度非常低,那么它对整体平均值的影响会比平均 cross_val_predict
的影响更大。
此外,您可以对这七个数据点进行不同的分组并获得不同的结果。这就是为什么有关于分组产生差异的信息。
让我们假设 cross_val_predict
对 7 个数据点使用 3 折,并且折叠预测为 [0,1,1,0,1,0,1]
,而真正的目标是 [0,1,1,0,1,1,0]
。准确度得分将计算为 5/7(只有最后两个预测错误)。
现在采用相同的预测并将它们分成以下 3 个部分:
[0, 1, 1]
- 预测和 [0, 1, 1]
目标 -> 第一次折叠的准确度为 1[0, 1]
- 预测和[0, 1]
目标 -> 再次完美准确[0, 1]
- 预测和 [1, 0]
目标 -> 0 准确度这就是 cross_val_score
所做的并将返回一个精度元组,即 [1, 1, 0]
。现在,您可以对这个元组进行平均,总准确度为 2/3
。
看到了吗?对于相同的数据,您将获得两种不同的准确性度量(一种是5/7
,另一种是2/3
)。
在这两种情况下,分组都会改变您获得的总准确度。 cross_val_score
的分类器错误更严重,因为每个错误对组的准确性的影响大于对所有预测的平均准确性的影响(您可以自己检查)。
虽然两者都可用于评估模型在验证集上的性能,但我认为没有禁忌症,只是行为不同(折叠错误没有那么严重)。
如果您根据交叉验证方案拟合您的算法,则您正在执行数据泄漏(针对训练和验证数据对其进行微调)。为了了解泛化错误,您必须将一部分数据排除在交叉验证和训练之外。
您可能想要执行双重交叉验证,或者只留下测试集来了解您的模型实际泛化的程度。
关于python - 为什么 cross_val_predict 不适合测量泛化误差?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55009704/
我正在制作一个简单的程序来更改我的计算机背景。我在网上发现了一个stackoverflow问题,或多或少涵盖了我想做的事情。我现在可以成功地将我的墙纸更改为平铺、居中和从在线图像 URL 拉伸(str
是的,这是另一个每组最大的问题之一!我已经尝试了几天,试图解决这个问题,但无济于事。我也一直在寻找,但我什至不知道我是否在正确的地方寻找。问题的最简化版本如下。 我有 2 个表,一个是多对多表,另一个
我想解析一些数据,我有一个 BNF 语法来解析它。谁能推荐任何能够生成可在移动设备上使用的代码的语法编译器? 由于这是针对 JavaME 的,因此生成的代码必须是: 希望很小 对外来 Java 库的依
我有一个动物园时间序列对象,vels : 2011-05-01 00:00:00 7.52 2011-05-01 00:10:00 7.69 2011-05-01 00:20:00 7.67 2011
我想创建一个供小型制造公司使用的生产管理系统。该系统将允许记录设备制造的不同阶段。要求如下: 1.非基于浏览器的界面。需要基于 Swing 或 AWT 的东西。虽然我了解实现基于浏览器的解决方案的便利
是否有任何 java 或 clojure 邮件库可以实现 lamson 的功能?特别是lamson的邮件路由功能非常酷http://verpa.wordpress.com/2010/11/13/mak
sklearn 中的 fit() 方法似乎在同一界面中服务于不同的目的。 应用于训练集时,像这样: model.fit(X_train, y_train) fit() 用于学习稍后将在测试集上使用 p
我使用 OSM 显示县的边界。它在大多数情况下工作得很好,但在某些情况下,县更大并且不适合 map 。 如何在开始渲染之前调整缩放级别? var map = L.map("mapCnty").setV
我正在致力于缩小和丑化我的 javascript 文件。我想知道合适的尺寸是多大。如果我将所有js文件合并成一个文件(经过缩小和丑化),它会大于1mb。我想,最好将它们分成 2-3 个文件(每个文件
我是 Java 新手。 我想在 GridPane 中放置一个 TextArea。我在过去几个小时内尝试了此操作,结果如下: 如您所见,TextArea 比我的 Gridpane 大得多。这是我的代码:
sklearn 中的 fit() 方法似乎在同一界面中服务于不同的目的。 应用于训练集时,像这样: model.fit(X_train, y_train) fit() 用于学习稍后将在测试集上使用 p
我认为这是一个基本问题,但也许我混淆了这些概念。 假设我使用 R forecast 包中的函数 auto.arima() 将 ARIMA 模型拟合到时间序列。该模型假设方差不变。我如何获得该方差?是残
我使用 OSM 显示县的边界。它在大多数情况下工作得很好,但在某些情况下,县更大并且不适合 map 。 如何在开始渲染之前调整缩放级别? var map = L.map("mapCnty").setV
我有一个很长的标签,这是我的第一个标签,我想把它放在我的单元格中。这就是我所拥有的,但它不起作用。 我有一个自定义的 UITabelviewCell ,里面有几个标签。 -(CGFloat)table
假设我有一个包含 WCS header 的 FITS 文件,这样我就可以执行以下操作: #import healpy as hp #import astropy.io.fits as pyfits #
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。 这个问题似乎与 help center 中定义的范围内的编程无关。 . 已关闭10 年前。 Improve
我们正在构建一个与其他系统有多个集成接触点的应用程序。我们有效地使用 Unity 来满足我们所有的依赖注入(inject)需求。整个业务层是用接口(interface)驱动的方法构建的,实际实现在应用
我得到了 MKMapView 和一些注释。我使用下一个代码来显示所有注释: NSArray *coordinates = [self.mapView valueForKeyPath:@"annotat
我在一家托管公司工作,我们经常收到安装、新域、滞后修复等方面的请求。为了大致了解仍然开放的内容,我决定制作一个非常简单的票务系统。我有一点 php 知识和一点 MySQL 知识。目前,我们将根据客户的
我想向我的 UITableView 添加背景图像,它适合 UI,还具有导航 Controller 和工具栏。在那种情况下,我没有找到适合 iPhone 和 iPad 不同屏幕的 tableview 的
我是一名优秀的程序员,十分优秀!