gpt4 book ai didi

classification - 文本分类方法?支持向量机和决策树

转载 作者:行者123 更新时间:2023-12-04 03:01:20 25 4
gpt4 key购买 nike

我有一个训练集,我想使用分类方法根据我的训练集对其他文档进行分类。我的文档类型是新闻,类别是体育、政治、经济等。

我完全理解朴素贝叶斯和 KNN,但是 SVM 和决策树是模糊的,我不知道我是否可以自己实现这种方法?或者有使用这种方法的应用程序?

我可以用这种方式对文档进行分类的最佳方法是什么?

谢谢!

最佳答案

  • 朴素贝叶斯

  • 虽然这是最简单的算法,并且一切都被认为是独立的,但在实际的文本分类案例中,这种方法效果很好。我肯定会先尝试这个算法。
  • KNN

  • KNN 用于聚类而不是分类。我认为您误解了聚类和分类的概念。
  • 支持向量机

  • SVM有SVC(classification)和SVR(Regression)算法来做类的分类和预测。它有时效果很好,但根据我的经验,它在文本分类方面的性能很差,因为它对好的分词器(过滤器)有很高的要求。但是数据集的字典总是有脏标记。准确率实在是太差了。
  • 随机森林(决策树)

  • 我从来没有尝试过这种文本分类方法。因为我认为决策树需要几个关键节点,而文本分类很难找到“几个关键标记”,而随机森林对于高稀疏维度效果不佳。

    仅供引用

    这些都来自我的经验,但对于您的情况,您没有更好的方法来决定使用哪种方法,只能尝试每种算法以适合您的模型。

    Apache 的 Mahout 是机器学习算法的绝佳工具。它集成了三个方面的算法:推荐、聚类和分类。你可以试试这个库。但是你必须学习一些关于Hadoop的基础知识。

    对于机器学习,weka 是一个集成了许多算法的体验软件工具包。

    关于classification - 文本分类方法?支持向量机和决策树,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17417982/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com