python - KFold 交叉验证无法修复过度拟合-6ren

python - KFold 交叉验证无法修复过度拟合

转载作者：行者123 更新时间：2023-12-01 11:03:53

25

4

我将 X 和 y 中的特征分开，然后在使用 k 折交叉验证拆分后预处理我的火车测试数据。之后，我将训练数据拟合到我的随机森林回归模型并计算置信度分数。为什么要在拆分后进行预处理？因为人们告诉我这样做更正确，而且为了我的模型性能，我一直坚持这一原则。

这是我第一次使用 KFold 交叉验证，因为我的模型得分过高，我认为我可以通过交叉验证来修复它。我仍然对如何使用它感到困惑，我已经阅读了文档和一些文章，但我并没有真正理解如何将它真正暗示到我的模型中，但我还是尝试了，但我的模型仍然过拟合。使用火车测试拆分或交叉验证导致我的模型分数仍然是 0.999，我不知道我的错误是什么，因为我是使用这种方法的新手，但我想也许我做错了，所以它没有修复过度拟合。请告诉我我的代码有什么问题以及如何解决这个问题

import pandas as pd
import seaborn as sns
import numpy as np
import matplotlib.pyplot as plt
from sklearn.impute import SimpleImputer
from sklearn.model_selection import train_test_split
from sklearn.model_selection import KFold
from sklearn.preprocessing import LabelEncoder
from sklearn.ensemble import RandomForestRegressor
import scipy.stats as ss
avo_sales = pd.read_csv('avocados.csv')

avo_sales.rename(columns = {'4046':'small PLU sold',
                            '4225':'large PLU sold',
                            '4770':'xlarge PLU sold'},
                 inplace= True)

avo_sales.columns = avo_sales.columns.str.replace(' ','')
x = np.array(avo_sales.drop(['TotalBags','Unnamed:0','year','region','Date'],1))
y = np.array(avo_sales.TotalBags)

# X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.2)


kf = KFold(n_splits=10)

for train_index, test_index in kf.split(x):
    X_train, X_test, y_train, y_test = x[train_index], x[test_index], y[train_index], y[test_index]

impC = SimpleImputer(strategy='most_frequent')
X_train[:,8] = impC.fit_transform(X_train[:,8].reshape(-1,1)).ravel()
X_test[:,8] = impC.transform(X_test[:,8].reshape(-1,1)).ravel()

imp = SimpleImputer(strategy='median')
X_train[:,1:8] = imp.fit_transform(X_train[:,1:8])
X_test[:,1:8] = imp.transform(X_test[:,1:8])

le = LabelEncoder()
X_train[:,8] = le.fit_transform(X_train[:,8])
X_test[:,8] = le.transform(X_test[:,8])

rfr = RandomForestRegressor()
rfr.fit(X_train, y_train)
confidence = rfr.score(X_test, y_test)
print(confidence)

最佳答案

过度拟合的原因是基于非正则化树的模型会调整数据，直到所有训练样本都被正确分类。参见例如这张图片:

如您所见，这并不能很好地概括。如果您不指定对树进行正则化的参数，则该模型将无法很好地拟合测试数据，因为它基本上只会学习训练数据中的噪音。 sklearn中有很多正则化树的方法，你可以找到它们here .例如:

最大特征数
min_samples_leaf
最大深度

通过适当的正则化，您可以获得一个可以很好地泛化到测试数据的模型。以正则化模型为例:

要规范化您的模型，请像这样实例化 RandomForestRegressor() 模块:

rfr = RandomForestRegressor(max_features=0.5, min_samples_leaf=4, max_depth=6)

这些参数值是任意的，您可以找到最适合您的数据的值。您可以使用特定领域的知识来选择这些值，或者使用超参数调整搜索，如 GridSearchCV 或 RandomizedSearchCV。

除此之外，估算均值和中位数可能会给您的数据带来很多噪音。除非你别无选择，否则我会反对它。

关于python - KFold 交叉验证无法修复过度拟合，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/60684943/

25

4

0

文章推荐： AWS for Ada 的安装问题

文章推荐： jquery-ui - jquery ui 自动完成如何加载默认值列表

文章推荐： Java Applet 布局未按预期显示 o_O

文章推荐： list - Prolog 删除 : doesn't delete all elements that unify with Element

javascript - 修复 IE 的 div 宽度 @media 修复
我将一个 div 设置为 100% 宽度，当以 1024 分辨率查看页面时，宽度应从 100% 变为 1000px，我让它与@media 查询一起正常工作，并且在 FF、safari chrome 上
ckeditor - Domino 9.01 修复 3 CKEditor 错误 - 9.01 修复 1 上没有错误
希望有人能帮助我，我已经被困了几天了。将我的 Domino 服务器更新到 9.01 Fix 3 后，我在 javascript 控制台上不断收到错误消息: TypeError: this.edito
Java内存使用/修复
我们正在使用一个基于RMI的java应用程序。当我们运行应用程序时，即使应用程序处于理想阶段，内存使用量仍然不断增加。我们主要使用Vector和散列图数据结构。如何最大限度地减少java内存使用/修复
修复 IDM下载器假序列号错误优秀技巧分享
概述 Internet Download Manager (IDM)是最流行的 Windows 下载管理器。如果你平时工作中使用过IDM,您会惊叹 IDM 下载文件的速度有多快。IDM
authorization - 打开勇敢的浏览器时弹出错误？修复？
当我打开 brave 浏览器时，会打开一个窗口(如下所示)。它并没有真正干扰浏览器的处理。但令人担忧的是为什么这种情况一直发生...... Error On Opening Brave Browser
for-loop - 修复 For 循环中的错误
这是我今天在求职面试中被问到的一个问题: 看下面的代码: int n=20; for (int i =0; i
macports 修复/替换命令？
我不小心删除了/opt/local/bin/perl5.8.9 ，这似乎是 macports 编译的 perl 的主要二进制文件。现在我有很多取决于 perl5 的端口，但不想卸载并重新安装所有端口
haskell - 翻转修复/修复
>>>flip fix (0 :: Int) (\a b -> putStrLn "abc") Output: "abc" 这是使用翻转修复的简化版本。我在一些 YouTube 视频中看到了这种使用
java - 修复 NetworkOnMainThreadException
这个问题已经有答案了: How can I fix 'android.os.NetworkOnMainThreadException'? (64 个回答) 已关闭 3 年前。我在 Android 应
python - 修复 UnboundLocalError
def main(): cash = float(input("How much money: ")) coins = 0 def changeCounter(n): whil
mysql - 查询优化/修复
前一周我遇到了类似的问题，查询需要永远运行。在编写此查询时，我尝试应用从其他查询中学到的一些知识，但执行起来需要很长时间。运行查询的两个单独部分时，每个部分需要 2 分钟才能完成，这是可以接受的，但
CSS 'Dropdown' 修复
下午，我的 CSS 有问题。第三个下拉菜单放错了，我没有解决办法。这是我想要的: 之前: http://i53.tinypic.com/2qu85z8.png 之后: http://i51.tiny
ios - NSInternalInconsistencyException 修复
更新方法: override func tableView(_ tableView: UITableView, commit editingStyle: UITableViewCellEditingS
导航栏折叠的 CSS 修复
我知道这是一个很多人都遇到过的问题，但我不熟悉 Less 并且是 Bootstrap 的新手，我正在寻找一种全 CSS 解决方案来防止我的导航栏折叠到 768 像素以下:
javascript - 可调整大小的粘性页脚与内容重叠 - 修复
在我的布局中，我创建了以下 jsfiddle 托管的可调整大小的粘性页脚。但是，在调整大小时它与内容重叠。有没有办法让它在所有浏览器上都能响应？ http://jsfiddle.net/9aLc0mg
javascript - 修复 if 语句以停止移动
我想要实现的目标 racer-offset 是为了让用户可以设置图像可以以 px 为单位移动多远。偏移量管理偏移量。 Speed-racer 告诉我们图像在滚动过程中移动的速度。我的问题是它不会停止。
c++ - 修复/改进自动换行功能
我有一个简单的自动换行函数，它接受一个长字符串作为输入，然后将该字符串分成更小的字符串，并将它们添加到一个数组中，以便稍后输出。现在最后一两个字没有输出。这是主要问题。但是，我还想改进功能。我知道这有
禁用按钮的 JQuery 修复
我试图在使用每个 slider 之前禁用“下一步”按钮，我不确定为什么在单击不再是 class="not-clicked"的同一个 slider 时取消禁用该按钮. JSFiddle: (这里看起来有
java - 修复 NullPointerException？
这个问题已经有答案了: What is a NullPointerException, and how do I fix it? (12 个回答) 已关闭 8 年前。如何让程序输出所有信息？ IT
菜单鼠标悬停的 CSS 修复
On this page ，在“生活”下有一个带有自动生成的子菜单的菜单。子菜单存在一些问题(它会闪烁并改变大小——如果你滚动它就会看到)。我需要以某种方式覆盖它当前正在读取的 css 并使其统一。

首页

博学

6Ren·AI

商城

python - KFold 交叉验证无法修复过度拟合