gpt4 book ai didi

python - 学习曲线 - 为什么训练准确率开始时如此之高,然后突然下降?

转载 作者:行者123 更新时间:2023-11-28 22:37:02 27 4
gpt4 key购买 nike

我实现了一个模型,在该模型中我使用逻辑回归作为分类器,我想绘制训练集和测试集的学习曲线以决定下一步做什么以改进我的模型。

只是为了给你一些信息,为了绘制学习曲线,我定义了一个函数,它采用一个模型,一个预拆分数据集(训练/测试 X 和 Y 数组,注意:使用 train_test_split函数),一个评分函数作为输入,并在 n 个指数间隔的子集上迭代数据集训练并返回学习曲线。

我的结果在下图中 enter image description here

我想知道为什么训练准确率一开始这么高,然后突然下降,然后随着训练集大小的增加又开始上升?而对于测试精度则相反。我认为准确性非常好,下降是因为开始时数据集较小导致一些噪音,然后当数据集变得更加一致时它开始上升,但我不确定。谁能解释一下?

最后,我们是否可以假设这些结果意味着低方差/中等偏差(在我的上下文中 70% 的准确度还算不错),因此为了改进我的模型,我必须求助于集成方法或极端特征工程?

最佳答案

我认为发生的情况是,当数据集很小(训练准确度非常高,测试准确度很低)时,你会过度拟合训练样本。随着数据集大小的增加,您的分类器开始更好地泛化,从而提高测试数据集的成功率。

在 10^3 数据集之后,准确率似乎稳定在 70%,这表明您在过度拟合训练和欠拟合测试数据集之间取得了良好的平衡

关于python - 学习曲线 - 为什么训练准确率开始时如此之高,然后突然下降?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36981050/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com