- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我对处理多标签分类问题的方法有疑问。
根据文献综述,我发现一种最常用的方法是问题转化方法。它将多标签问题转化为多个单标签问题,分类结果只是每个单标签分类器的简单并集,采用二元相关方法。
由于单标签问题可以分类为二元分类(如果有两个标签)或多类分类问题(如果有多个标签,即标签>2),当前的转换方法似乎都将多标签问题转换为一些二进制问题。但这会导致数据不平衡问题,因为负类可能比正类拥有更多的文档。
所以我的问题是,为什么不转化为多个多类问题,然后应用直接的多类分类算法来避免数据不平衡问题。在这种情况下,对于一个测试文档,每个经过训练的单标签多类分类器将预测是否分配标签,并且所有此类单标签多类分类器预测结果的并集将是该测试文档的最终标签集。
综上所述,与将一个多标签分类问题转化为多个二分类问题相比,将一个多标签分类问题转化为多个多类分类问题可以避免数据不平衡问题。除此之外,上述两种方法的一切都保持不变:您需要构造|L|(|L|表示分类问题中不同标签的总数)单标签(二元或多类)分类器,您需要准备|L|训练数据和测试数据集,需要在测试文档上测试每个单标签分类器,每个单标签分类器的预测结果的并集就是测试文档的最终标签集。
希望大家能帮我解答一下我的困惑,非常感谢!
最佳答案
您所描述的是一种已知的多类问题转换策略,称为标签幂集转换策略。
这种方法的缺点:
引用:切尔曼、埃弗顿阿尔瓦雷斯、玛丽亚·卡罗莱纳·莫纳德和让·梅斯。 “多标签问题转换方法:案例研究。” CLEI电子期刊14.1(2011):4-4。
关于machine-learning - 文本分类: Multilable Text Classification vs Multiclass Text Classification,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35737352/
我对处理多标签分类问题的方法有疑问。 根据文献综述,我发现一种最常用的方法是问题转化方法。它将多标签问题转化为多个单标签问题,分类结果只是每个单标签分类器的简单并集,采用二元相关方法。 由于单标签问题
我是一名优秀的程序员,十分优秀!