gpt4 book ai didi

python - 文本分类——是否过拟合?我怎么证明?

转载 作者:行者123 更新时间:2023-12-04 15:22:42 25 4
gpt4 key购买 nike

我有一个多分类问题,我的数据涉及字母序列。它是一个标记数据(使用标签编码器将字符串标签编码为数字)。同一类可能有部分字符串。可能字符串匹配,但有些字符串可能略有不同。

我正在使用 k-mer 和 countvectoriser 准备我的数据(适用于训练数据和转换后的训练和测试数据)。通过结合 kmer 大小和 ngram 大小,维度(特征大小)在 8000+ 到 35000+ 之间变化。我不认为在模型训练时存在测试信息泄漏。

我在训练数据上采用不同的算法并进行测试以审查泛化。测试分数(准确率、f1 分数、精确率和召回率)非常高(超过 99%)。即使这是测试,您是否认为该模型可能由于高维度(维度灾难)而过度拟合?我知道如果训练分数很高并且概括性很差那么它就会过度拟合但这里的测试分数非常高。这不是模型,因为不同的算法会给出相似的结果,这当然与数据有关。

如果我应用 PCA 得到覆盖 99% 方差的 10 个组件,测试的测试分数也很高。如果我使用 selectkfeatures 选择大约 10 个最佳特征,那么分数就会下降。

真的在寻找您关于如何证明这不是过度拟合的想法吗?我是否应该始终使用如此高的尺寸来缩小特征尺寸(通过选择或 pca)?谢谢。

问候,维杰

最佳答案

如果你的考试成绩很高,那么以下是可能性

  1. 测试和训练数据重叠:如果您有重复的记录并且将一个落入训练而另一个落入测试则可能发生这种情况

  2. 数据泄漏:如果类标签信息在特征中是如何编码的。这可以很容易地验证:即使使用基本模型,训练分数也几乎是 100%。查看此资源以了解什么是 data leak .

  3. 你真的成功建立了一个好的模型

我建议先检查以上两种可能性,然后再尝试 K 折交叉验证。

关于python - 文本分类——是否过拟合?我怎么证明?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/62974656/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com