gpt4 book ai didi

machine-learning - 机器学习内核(如何使用给定内核检查数据在高维空间中是否线性可分)

转载 作者:行者123 更新时间:2023-11-30 09:11:50 25 4
gpt4 key购买 nike

如何测试/检查给定内核(例如:RBF/多项式)是否确实分离了我的数据?

我想知道是否有一种方法(当然不是绘制数据)可以让我检查给定的数据集(标有两个类)是否可以在高维空间中分离?

最佳答案

简而言之 - 不,没有通用的方法。然而,对于某些内核,您可以轻松地说......一切都是可分离的。这个属性以多种形式(其中包括由 Schoenberg 证明)证明,例如,如果您的内核的形式为 K(x,y) = f(||x-y||^2) 并且 f 是:

  • 无限可微
  • 完全单调(这或多或少意味着如果你采用导数,那么第一个是负数,下一个是正数,下一个是负数,...)
  • 积极

那么它将始终能够分离每个二进制标记的一致数据集(不存在完全相同标签的两个点)。实际上它说得更多——你可以精确地插值,也就是说,即使它是一个回归问题——你也会得到零误差。因此,特别是多类、多标签问题也将是线性可解的(存在线性/多线性模型,可以为您提供正确的插值)。

但是,如果上述属性不成立,并不意味着您的数据无法完美分离。这只是“单向”证明。

特别是,此类内核包含 RBF 内核,因此它将始终能够分离任何训练集(这就是为什么它如此容易过拟合!)

那么换一种方式呢?这里你必须首先修复内核的超参数,然后你也可以通过优化来回答它 - 解决硬边距SVM问题(C=inf),它会找到一个解决方案,当且仅当数据是可分离的。

关于machine-learning - 机器学习内核(如何使用给定内核检查数据在高维空间中是否线性可分),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33997874/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com