gpt4 book ai didi

algorithm - K 最近邻分类具有相同点的特例

转载 作者:塔克拉玛干 更新时间:2023-11-03 06:29:53 25 4
gpt4 key购买 nike

问题是关于用于分类的 KNN 算法 - 训练样本的类标签是离散的。

假设训练集有n与我们即将分类的新模式相同的点,即从这些点到新观测值的距离为零(或 <epsilon )。这些相同的训练点可能具有不同的类别标签。现在假设 n < K还有一些其他训练点是最近邻集合的一部分,但与新观察点的距离非零。在这种情况下,我们如何将类标签分配给新点?

有几种可能性,例如:

  1. 考虑所有 K 个(或更多,如果与最差的最近邻居有关系)邻居并进行多数表决
  2. 如果训练数据中存在新点的“克隆”,则忽略距离非零的邻居,只对克隆进行多数投票
  3. 与 2. 相同,但在训练数据中分配具有最高先验概率的类别(在克隆中)
  4. ...

有什么想法吗? (引用文献也将不胜感激)

最佳答案

每个提议的方法都会在某些问题上起作用,而在某些问题上它们不会。通常,无需实际考虑此类边界情况,只需使用默认行为(问题中的选项“1”)。事实上,如果任何分类算法的边界案例成为问题,它至少是以下之一的信号:

  • 错误的问题定义,
  • 错误的数据表示,
  • 不良数据预处理,
  • 使用了错误的模型。

从理论的角度来看,如果某些点正好位于训练数据的位置,则不会发生任何变化。唯一的区别是,如果您拥有一致的训练集(从某种意义上说,训练数据中不会出现具有不同标签的重复项)并且 100% 正确(每个标签都是此标签的完美标签点),那么根据点的标签添加一个 if 从句是合理的。但实际上很少是这种情况。

关于algorithm - K 最近邻分类具有相同点的特例,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18681120/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com