gpt4 book ai didi

classification - 选择正确的分类算法。线性还是非线性?

转载 作者:行者123 更新时间:2023-12-04 00:09:22 24 4
gpt4 key购买 nike

关闭。这个问题是opinion-based .它目前不接受答案。












想改善这个问题吗?更新问题,以便可以通过 editing this post 用事实和引文回答问题.

2年前关闭。



Improve this question




我觉得这个问题有点棘手。也许有人知道回答这个问题的方法。想象一下,你有一个你不知道它是什么的数据集(训练数据)。为了推断分类算法来对这些数据进行分类,您会查看训练数据的哪些特征?我们是否应该使用非线性或线性分类算法?

顺便说一下,我正在使用 WEKA 来分析数据。

有什么建议么?
谢谢。

最佳答案

哇,您有一些训练数据,但您不知道您是在查看表示文档中的单词还是单元格中的基因的特征,并且需要调整分类器。好吧,由于您没有任何语义信息,因此您将不得不仅通过查看数据集的统计属性来完成此操作。

首先,为了表述问题,这不仅仅是线性与非线性。如果你真的想对这些数据进行分类,你真正需要做的是为分类器选择一个核函数,它可能是线性的,也可能是非线性的(高斯、多项式、双曲线等。此外,每个核函数可能需要需要设置的一个或多个参数。为给定的分类问题确定最佳核函数和参数集并不是真正解决的问题,只有有用的启发式方法,如果您在谷歌上搜索“选择核函数”或“选择核”函数”,您将看到许多提出和测试各种方法的研究论文。虽然有很多方法,但最基本和最常见的方法之一是对参数进行梯度下降——基本上,您尝试核方法和参数集,对一半的数据点进行训练,看看你做得如何。然后你尝试一组不同的参数,看看你做得如何。你将参数朝着准确率最佳提高的方向移动,直到你满意为止保守的结果。

如果您不需要通过所有这些复杂性来找到一个好的核函数,而只是想要线性或非线性的答案。那么问题主要归结为两件事:非线性分类器将具有更高的过度拟合(欠泛化)风险,因为它们具有更多的自由维度。他们可能会受到分类器仅仅记住一组好的数据点的影响,而不是想出一个好的概括。另一方面,线性分类器的拟合自由度较低,并且在数据不可线性分离的情况下,将无法找到良好的决策函数并遭受高错误率。

不幸的是,除了尝试分类器本身并查看其性能之外,我不知道更好的数学解决方案来回答“这些数据是否线性可分”这个问题。为此,您将需要一个比我更聪明的答案。

编辑:这篇研究论文描述了一种算法,它看起来应该能够确定给定数据集线性可分的接近程度。

http://www2.ift.ulaval.ca/~mmarchand/publications/wcnn93aa.pdf

关于classification - 选择正确的分类算法。线性还是非线性?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2414030/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com