gpt4 book ai didi

machine-learning - LIBSVM 分类准确率 100% - 可能出了什么问题?

转载 作者:行者123 更新时间:2023-11-30 09:29:24 25 4
gpt4 key购买 nike

我正在使用 LIBSVM 构建一个用于对恶性乳腺肿瘤进行分类的模型。这是我遵循的算法:

  1. 使用向后消除法进行特征选择。
  2. 使用网格搜索计算每组特征的 C 和 gamma。
  3. 使用 10 倍交叉验证得出最佳 C 和 gamma。
  4. 通过上述步骤,找到尽可能最佳的特征子集和最大准确度。

问题是我使用 LIBSVM 在 80:20 数据集上获得了 100% 的准确率。我没有排除任何功能,也没有对相同的数据进行训练和测试。有什么提示我可能错了吗?以下是一些其他相关信息:

cost = [2^-10, 2^-8, 2^-6, 2^-4, 2^-2, 0.5, 1,
2, 2^2, 2^3, 2^4, 2^5, 2^6, 2^7, 2^8, 2^9, 2^10];
g = [2^-10, 2^-8, 2^-6, 2^-4, 2^-2, 2^-1, 1,
2, 2^2, 2^3, 2^4, 2^5, 2^6, 2^7, 2^8, 2^9, 2^10];
most optimal C = 1;
most optimal gamma = 9.7656e-04;
Accuracy on 50:50 test:train dataset: 98.5337%
Accuracy on 70:30 test:train dataset: 99.5122%
Dataset used: University of Wisconsin breast cancer dataset (682 entries).

最佳答案

总结:你没有提示其他两个数据集; 100% 准确度与这些相当一致。是什么让您认为您应该降低准确度?

让我们看看错误分类的数量:

50:50 data set -- 5 / 341 errors
70:30 data set -- 1 / 205 errors
80:20 data set -- 0 / 136 errors

80:20 的结果与您之前的结果足够一致:您的准确度已提高到(显然)超过 99.8%。

对训练要求最高的准确性表明它很可能保留所有特征,但存在明显的过度拟合危险。然而,由于您显然发现前两个数据集是可以接受的,因此我直觉该数据集是高度自洽的。根据我的经验,我发现这种一致性很奇怪,但您没有描述数据集的属性,甚至没有给我们提供示例或有用的链接来检查。

关于machine-learning - LIBSVM 分类准确率 100% - 可能出了什么问题?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39729730/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com