gpt4 book ai didi

classification - weka 中的不平衡数据集?不起作用

转载 作者:行者123 更新时间:2023-12-02 01:49:59 33 4
gpt4 key购买 nike

我有 239 个阳性数据集和 32 个阴性数据集,因为它是与癌症相关的数据,我们只有很少的阴性数据集。现在,在应用分类时,确保不平衡的数据集会因为数量庞大而过于偏向正值。所以我尝试在 weka 中应用 SMOTE。我也尝试了各种百分比和最近的邻居。令我惊讶的是,负类增加了一些实例,而正类进一步增加,使得不平衡的数据集过于偏向。可以做些什么来克服这一点。并建议我其他一些方法??如果有的话

对于初步研究,我们使用带有 RBF 的 LIBSVM 作为分类器

最佳答案

在这个不平衡的数据集问题中,我建议使用分层,它涉及对少数类进行过采样或对多数类进行下采样。您可以使用 成本敏感分类 在 WEKA 中模拟分层。

您可以使用两个分类器,MetaCostCostSensitiveClassifier .唯一的问题是成本矩阵中的最优值只能通过实验获得。根据经验,您可以尝试使用与类别分布相反的权重来平衡类别分布。在您的情况下,这意味着在成本矩阵中将 239 的成本分配给误报,将 32 的权重分配给误报。

关于classification - weka 中的不平衡数据集?不起作用,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23426582/

33 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com