gpt4 book ai didi

machine-learning - 当数据集仅包含一类实例时,机器学习应使用什么方法?

转载 作者:行者123 更新时间:2023-11-30 09:30:21 25 4
gpt4 key购买 nike

我有一个特定领域的数据集(比如体育 - 1 类)。我想做的是,当我向分类器/聚类器提供网页时,我想要得到结果,无论该实例(网页)是否与体育相关。

除了 LibSVM(包装器)之外,weka 中的大多数分类器都无法处理一元类数据集。我用 LibSVM 做了一些测试,但问题是在对不相关的数据集进行测试时,即使实例是空的,我也对所有数据集进行了正确分类!有什么建议吗?
如果我在这里使用余弦相似度度量会怎样?

最佳答案

你看过这个帖子吗unary class text classification in weka?和这篇文章https://list.scms.waikato.ac.nz/mailman/htdig/wekalist/2007-October/011631.html

我假设您的意思是,当您针对另一个非“体育”数据集运行分类器时,它会得到错误分类的结果(即误报),例如“这就是体育”。

您确定您的数据集只包含一个类吗?您是否确保数据集不包含任何空实例? (别 mock ,我以前也遇到过这种情况)。

在前面提到的线程的评论中,有一个关于调整 SVM 的 PDF 链接:http://www.csie.ntu.edu.tw/~cjlin/papers/guide/guide.pdf - 我想说 SVM 比其他常见分类器要难一些。

作为替代方案,你不能将问题切换到二元分类吗?获得好的结果要容易得多,对于大多数问题,有很多不属于该类的例子,例如体育网站与搞笑图片网站、编程网站等......

PS:您可以使用其他算法进行异常值检测:http://en.wikipedia.org/wiki/Outlier_detection

关于machine-learning - 当数据集仅包含一类实例时,机器学习应使用什么方法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10572466/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com