matlab - SVM 对于不平衡数据集的性能较差

matlab - SVM 对于不平衡数据集的性能较差 - 如何改进？

转载作者：行者123 更新时间：2023-11-30 08:42:24

24

4

考虑一个数据集A，其中包含二元分类问题训练的示例。由于数据集高度不平衡，我使用了 SVM 并应用了加权方法(在 MATLAB 中)。我应用的权重与每个类别中数据的频率成反比。这是使用命令进行训练时完成的

 fitcsvm(trainA, trainTarg , ...
            'KernelFunction', 'RBF', 'KernelScale', 'auto', ...
            'BoxConstraint', C,'Weight',weightTrain  );

我使用了 10 倍交叉验证来进行训练，并学习了超参数。因此，在 CV 内，数据集 A 被分为训练集 (trainA) 和验证集 (valA)。训练结束并在 CV 循环之外后，我得到了 A 上的混淆矩阵:

80025 1
0 140

其中第一行代表多数类，第二行代表少数类。只有 1 个误报 (FP)，并且所有少数类示例均已正确分类，真阳性 (TP) = 140。

问题:然后，我在一个新的未见过的测试数据集 B 上运行经过训练的模型，该数据集在训练期间从未见过。这是在 B 上进行测试的混淆矩阵。

50075 0
100 0

可以看出，少数类根本没有被分类，因此权重的目的没有达到。虽然没有 FP，但 SVM 无法捕获少数类示例。我没有在 B 上应用任何权重或平衡方法，例如采样(SMOTE、RUSBoost 等)。可能出了什么问题以及如何克服这个问题？

最佳答案

可以设置类错误分类权重而不是样本权重!

您可以根据以下示例设置类别权重。

A 类(n 条记录；主导类)到 B 类(m 条记录；少数类)的错误分类权重可以为 n/m。误分类权重对于 B 类，A 类可以根据严重程度设置为 1 或 m/n，您希望将其施加到学习中

c=[0 2.2;1 0];
mod=fitcsvm(X,Y,'Cost',c)

根据documentation :

For two-class learning, if you specify a cost matrix, then the software updates the prior probabilities by incorporating the penalties described in the cost matrix. Consequently, the cost matrix resets to the default. For more details on the relationships and algorithmic behavior of BoxConstraint, Cost, Prior, Standardize, and Weights, see Algorithms.

关于matlab - SVM 对于不平衡数据集的性能较差 - 如何改进？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/53752674/

24

4

0

文章推荐： java - 使用 javac -d 标志编译时找不到包错误？

文章推荐： python - 如何获得每个时期而不是每个批处理的损失？

检查不良做法/改进
我对编码还比较陌生，但并非完全没有经验。处理有关金融计算器的学校作业。如果你们中的任何人可以查看我的代码以了解不良做法/可能的改进等，那就太好了。我确实添加了一个“动画”启动(有很多 printf
小目标检测改进拆分拼接
小目标Trick 论文链接： https://paperswithcode.com/paper/slicing-aided-hyper-inference-and-fine-tuning 代码链接：h
javascript - 改进 if 语句链
if (firstPositionCpc && (firstPosition > 0 && firstPositionCpc 0 && topOfPageCpc 0 && firstPageCpc
SQL 改进 - UNION？
我有 2 个表:“packages”和“items”。 “packages”有以下列:pack_id | item_id “items”有以下列......:item_id |输入一个包可以有多个
python - Pandas 改进
我目前有一个 Pandas Dataframe，我在其中执行列之间的比较。我发现一种情况，在进行比较时存在空列，由于某种原因比较返回 else 值。我添加了一个额外的语句来将其清理为空。看看我是否可以
具有四舍五入的主日期时间键的 MySQL 改进
我正在处理一个查询，通过首先舍入它们的主要日期时间键来连接一个数据库中的多个表。数据库包含来自 openhab 的性能数据，每个表只有一个名为 Time 的主日期时间行和一个名为 Value 的值行。
即发即弃的 C# 改进
问候我有一个程序创建一个类的多个实例，在所有实例上运行相同的长时间运行的 Update 方法并等待完成。我从 this question 开始关注 Kev 的方法将更新添加到 ThreadPool.
c - 对我的简单二十一点程序的建议/改进
我想在下学期的类(class)中取得领先，所以我制作了这个基本版本的 Blackjack 来开始理解 C 的基础知识，我希望您有任何想法可以帮助我更好地理解 C 和其正常的编码实践。 C 中的很多东西
javascript - 需要更好的解决方案/改进
我有一个要求，比如: 给定一个数组，其中包含随机数。需要输出元素出现的次数，有自带解决方案: var myArr = [3,2,1,2,3,1,4,5,4,6,7,7,9,1,123,0,123];
sql - min() 改进
这是我的数据库项目。表user_ select id, name from user_; id | name ----+---------- 1 | bartek 2 | bartek
bash - 改进 for 循环的执行
我已经完成了一个小批量脚本来调整(动态)一些图像的大小: for a in *.{png,PNG,jpg,JPG,jpeg,JPEG,bmp,BMP} ; do convert "$a" -resiz
列表理解中函数的 Pythonic 改进？
是否有更 pythonic 的方法来执行以下代码？我想在一行中完成 parsed_rows 是一个可以返回大小为 3 或 None 的元组的函数。 parsed_rows = [ parse_row(
选项转换器的 Javascript 改进
关闭。这个问题是opinion-based .它目前不接受答案。想要改进这个问题？更新问题，以便 editing this post 可以用事实和引用来回答它. 关闭 9 年前。 Improv
python - 列表到字典 - 改进？
下面的代码完成了我想要的，但还有其他更像 python 风格的方式吗？文件格式: key1:value1,key2:value2,... key21:value21,key22:value22,..
java - 检查字符串中是否存在字符集 - 改进
如果两个英文单词只包含相同的字母，则它们是相似的。例如，food 和 good 不相似，但 dog 和 good 相似。 (如果A与B相似，则A中的所有字母都包含在B中，B中的所有字母都包含在A中。)
c - 强平衡树 - 改进
我有以下结构来表示二叉树: typedef struct node *pnode; typedef struct node { int val; pnode left; pnode
algorithm - 改进 a* 搜索以在三角环境中寻找路径
我有一个区域，它由受约束的 delaunay 三角剖分表示。我正在解决在两点之间寻找路径的问题。我正在使用 Marcelo Kallmann 提供的论文作为解决此问题的引用点。然而，而不是使用 Kal
java - 使用正则表达式的性能开销/改进
如果我需要检查文本(字符串)中是否存在单词 A 或单词 B，如果我这样做会有性能差异: if(text.contains(wordA) || text.contains(wordB)) 要使用一些正则
xml - Xpath 改进
Adjust To 我有上面这个简单的页面，上面有一个标签和一个文本框。我想在文本框中输入文本。对我有帮助的 XPATH 是 //*[contains(tex
elisp - 改进 Elisp 条件表达式
以下伪代码的elisp代码 if "the emacs version is less than 23.1.x" do something else something-else 写成 (if

首页

博学

6Ren·AI

商城

matlab - SVM 对于不平衡数据集的性能较差 - 如何改进？