python - sklearn cross_val_score 的准确性低于手动交叉验证-6ren

python - sklearn cross_val_score 的准确性低于手动交叉验证

转载作者：太空狗更新时间：2023-10-29 20:19:44

24

4

我正在研究一个文本分类问题，我是这样设置的(为了简洁起见，我省略了数据处理步骤，但它们会生成一个名为 data 的数据框包含 X 和 y 列):

import sklearn.model_selection as ms
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.ensemble import RandomForestClassifier

sim = Pipeline([('vec', TfidfVectorizer((analyzer="word", ngram_range=(1, 2))),
                ("rdf", RandomForestClassifier())])

现在我尝试通过在 2/3 的数据上训练它并在剩余的 1/3 上评分来验证这个模型，如下所示:

train, test = ms.train_test_split(data, test_size = 0.33)
sim.fit(train.X, train.y)
sim.score(test.X, test.y)
# 0.533333333333

我想对三个不同的测试集执行三次此操作，但使用 cross_val_score 给我的结果要低得多。

ms.cross_val_score(sim, data.X, data.y)
# [ 0.29264069  0.36729223  0.22977941]

据我所知，该数组中的每个分数都应该通过对 2/3 的数据进行训练并使用 sim.score 方法对剩余的 1/3 进行评分来生成。那么为什么它们都低得多呢？

最佳答案

我在写问题的过程中解决了这个问题，所以这里是:

cross_val_score 的默认行为是使用 KFold 或 StratifiedKFold 来定义折叠。默认情况下，两者都有参数 shuffle=False，因此不会从数据中随机提取折叠:

import numpy as np
import sklearn.model_selection as ms

for i, j in ms.KFold().split(np.arange(9)):
    print("TRAIN:", i, "TEST:", j)
TRAIN: [3 4 5 6 7 8] TEST: [0 1 2]
TRAIN: [0 1 2 6 7 8] TEST: [3 4 5]
TRAIN: [0 1 2 3 4 5] TEST: [6 7 8]

我的原始数据是按标签排列的，因此通过这种默认行为，我试图预测很多我在训练数据中没有看到的标签。如果我强制使用 KFold(我正在做分类，所以 StratifiedKFold 是默认值)，这会更加明显:

ms.cross_val_score(sim, data.text, data.label, cv = ms.KFold())
# array([ 0.05530776,  0.05709188,  0.025     ])
ms.cross_val_score(sim, data.text, data.label, cv = ms.StratifiedKFold(shuffle = False))
# array([ 0.2978355 ,  0.35924933,  0.27205882])
ms.cross_val_score(sim, data.text, data.label, cv = ms.KFold(shuffle = True))
# array([ 0.51561106,  0.50579839,  0.51785714])
ms.cross_val_score(sim, data.text, data.label, cv = ms.StratifiedKFold(shuffle = True))
# array([ 0.52869565,  0.54423592,  0.55626715])

手工做事给了我更高的分数，因为 train_test_split 做的事情与 KFold(shuffle = True) 做的一样。

关于python - sklearn cross_val_score 的准确性低于手动交叉验证，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/43688058/

24

4

0

文章推荐： C++未知调用约定

文章推荐： c++ - 如何使用 const char 初始化 string_view 的默认值

文章推荐： c++ - #define XYZ before #include 预编译头文件

文章推荐： python - Pandas 加载 CSV 比 SQL 更快

java - 低于 long 最大值的整数之和返回负值？
我有 5 个对象，a、b、c。d 和 e。 5个对象的hashcode如下: a => 72444 b => 110327396 c => 107151 d => 2017793190 e => 68
html - 低于 600px 的响应式设计会导致导航栏出现问题吗？
我目前正在为我当前的元素创建媒体查询，我目前面临的问题是某些东西导致我的导航栏在宽度低于 600 像素时无法响应。所发生的情况如附图所示。这个问题其实我在之前的元素中曾经解决过一次，但是我对比了代码
html - 低于 768px 的媒体查询不起作用
我正在为网页编写媒体查询，并设法为 768 及以下版本编写媒体查询。但它不能正常工作。我想捕捉大多数 320 像素的手机(iphone4、iphone5、iphone3、asus galaxy 7、s
Android 低于 api 23 无法连接到服务器
我开发了一个android应用，我所有android低于api 23的用户都无法连接到服务器，其余的都正常工作，从今天(2020-05-30)开始，在这一天之前多年来一直正常工作。任何想法是什么原因
java - XOR 字节数组的成本似乎非常低，低于 arraycopy
我正在上一门加密课，主要是作为学术练习，我一直在尝试获得尽可能高的速度。我发现了一些奇怪的事情，即异或字节数组的成本非常低，但在相同大小的字节数组上使用 arraycopy 的成本更高。我想这一定是一
android - 如何正确减少应用程序方法数(低于 dex 限制)
我启动了一个新的应用程序，它大量使用了 firebase 功能以及支持库。我很快就达到了 65k dex 的限制，尽管考虑到应用程序的简单性，我没有理由应该在那里。我知道我需要排除某些我没有用的依赖项
android - targetSdkVersion 低于 22 的下载管理器的安全异常
我在 Lollipop 及以下发生了奇怪的崩溃。尝试从服务器下载文件时出现安全异常，但在运行 Marshmallow 及以上版本的设备中，应用程序不会崩溃。 Logcat: Caused by: ja
html - 调整大小时使 Nav 低于 H1
我正在构建一个相当简单的网站，我需要它具有一定的响应能力。现在，当我调整浏览器大小时，导航菜单与 Logo 标题重叠，变得非常困惑。 HTML: Prince Innoce
javascript - 我的气泡图远远超过了 maxValue，低于 minValue
如演示中所示，maxValue 设置为 2017 年，但图表一直到 2020 年。如何让图表真正停在 2017 年？它在我的页面上占用了太多空间，因此我想对其进行优化 See demo fiddle
python - 低于 400 万的偶数斐波那契数之和 - Python
我正在用 python 尝试第二个 Project Euler 问题，想了解为什么我的代码不起作用。此代码查找低于 400 万的偶数斐波那契数的总和 counter = 2 total = 0 wh
.net - 低于 3 万美元的可扩展 .Net 文档管理
我想回答其中一个问题，这些问题有时是由销售人员试图在预算内进行销售而交给我们开发人员的。我们有一个客户需要以下内容: 支持 AD 身份验证的文档管理系统(即使服务器可能位于其他位置 - 可能位于 V
python - Pandas/Numpy 组值变化和导数值变化高于/低于 0
我有一系列值(Pandas DF 或 Numpy Arr): vals = [0,1,3,4,5,5,4,2,1,0,-1,-2,-3,-2,3,5,8,4,2,0,-1,-3,-8,-20,-10,
android - minSDK 低于 11 的安卓设备上的谷歌地图 v2
当我创建使用 Google map API v2 的项目时，这条线有问题。 GoogleMap map = ((MapFragment) getFragmentManager().findFragme
ios - UIButton 低于 UITableView 但高于 TabBar
如何在 UITableView 下方但在 TabBar 上方放置一个按钮，以便 UIButton 保持静止(不随 tableview 滚动)？这是一张我想要帮凶的照片:http://i.imgur.
java - Spring MockMvcResultMatchers jsonPath 低于/大于
我正在使用 MockMvcResultMatchers 来测试我的 Controller 类。这是一个示例代码 RequestBuilder request = get("/empl
javascript - 如何使警报打印超过 50、低于 50(if 语句)？
function randomise(){ var ran_number=Math.floor(Math.random() * 100); return ran_number;
Swift:如何使用预处理器为*低于*某个 iOS 版本添加扩展方法？
我正在尝试为 iOS9 以下的 NSManagedObjects init(context:) 方法“polyfill”。有没有办法为 iOS10 进行预处理器可用性检查？这是否有意义，或者是否会出
html - 主页英雄下方的内容向左挤压 - 响应式设计 - 低于 640 像素
我对 Web 开发的冒险还很陌生。我在使用的网站上遇到问题。在我达到大约 640px 之前，我的响应式设计没有问题。一旦我达到 640px 或将我的 html 全部压缩到左侧，除了我的主页英雄和导航栏
html - 低于 600px 的 css 问题
所以，我遇到的问题真的很难解释，但是，当页面宽度小于 600 像素时，我试图让我的导航行为有所不同。我几乎按照我想要的方式工作，但是当我点击菜单按钮时，当它低于 600px 时，它会在它下面的内容顶部
jquery - 位置固定 div 低于 float div
我在一个多语言网站上工作，我想在它的图标下方放置一个固定语言的菜单 div。我正在使用 Bootstrap 3。

首页

博学

6Ren·AI

商城

python - sklearn cross_val_score 的准确性低于手动交叉验证