gpt4 book ai didi

machine-learning - 一般来说,选择哪种机器学习分类器?

转载 作者:行者123 更新时间:2023-11-30 08:19:29 26 4
gpt4 key购买 nike

假设我正在研究一些分类问题。 (欺诈检测和垃圾评论是我现在正在研究的两个问题,但我对一般的任何分类任务都很好奇。)

我如何知道应该使用哪个分类器?

  1. 决策树
  2. 支持向量机
  3. 贝叶斯
  4. 神经网络
  5. K 最近邻
  6. Q-学习
  7. 遗传算法
  8. 马尔可夫决策过程
  9. 卷积神经网络
  10. 线性回归或逻辑回归
  11. Boosting、Bagging、Ensambling
  12. 随机爬山或模拟退火
  13. ...

在哪些情况下,其中一种是“自然”的第一选择,选择该选择的原则是什么?

我正在寻找的答案类型的示例(来自 Manning 等人的 Introduction to Information Retrieval 书):

a. 如果您的数据已标记,但数量有限,则应使用具有高偏差的分类器(例如朴素贝叶斯)

我猜这是因为较高偏差的分类器将具有较低的方差,这很好,因为数据量较小。

b. 如果您有大量数据,那么分类器并不那么重要,因此您应该选择具有良好可扩展性的分类器。

  • 还有哪些其他准则?即使是“如果您必须向某些高层管理人员解释您的模型,那么也许您应该使用决策树,因为决策规则相当透明”之类的答案也很好。不过,我不太关心实现/库问题。

  • 此外,对于一个稍微独立的问题,除了标准贝叶斯分类器之外,是否还有用于垃圾评论检测的“标准最先进”方法(而不是垃圾邮件)?

    <
  • 最佳答案

    enter image description here

    首先,您需要确定您的问题。这取决于您拥有什么类型的数据以及您想要的任务是什么。

    If you are Predicting Category :

    • You have Labeled Data
      • You need to follow Classification Approach and its algorithms
    • You don't have Labeled Data
      • You need to go for Clustering Approach

    If you are Predicting Quantity :

    • You need to go for Regression Approach

    Otherwise

    • You can go for Dimensionality Reduction Approach

    上述每种方法都有不同的算法。特定算法的选择取决于数据集的大小。

    来源:http://scikit-learn.org/stable/tutorial/machine_learning_map/

    关于machine-learning - 一般来说,选择哪种机器学习分类器?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2595176/

    26 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com