gpt4 book ai didi

machine-learning - 如何在分类中将多个输入建模为单个输出?

转载 作者:行者123 更新时间:2023-11-30 09:18:16 25 4
gpt4 key购买 nike

目的:

我正在尝试构建一个模型来将多个输入分类到单个输出类,如下所示:

{x_i1, x_i2, x_i3, ..., x_i16} (features) to y_i (class)

我正在使用 SVM 进行分类,但 0/1 损失很糟糕(一半数据被错误分类),这使我得出数据可能是非线性的结论。这就是我使用多项式基函数的原因。我对每个系数进行了变换,以便获得高达 4 次的多项式的任意组合,希望我的特征在变换后的空间中是线性的。我的新转换输入如下所示:

{x_i1, ..., x_i16, x_i1^2, ..., x_i16^2, ... x_i1^4, ..., x_i16^4, x_i1^3, ..., x_i16^3, x_i1*x_i2, ...}

损失已经最小化,但仍然没有达到我想要的目标。由于随着多项式次数的增加,过度拟合的可能性会增加,因此我添加了正则化以抵消这种情况。我还添加了前向贪婪算法,以获取系数,从而将交叉验证误差降至最低,但没有太大改进。

问题:

是否有一种系统的方法来找出哪种变换会导致变换空间中的线性特征行为?对我来说似乎没什么奇怪的,我必须尝试每个多项式直到它“适合”。除了多项式之外,是否还有更好的基函数?我知道在低维特征空间中,人们可以简单地绘制数据并直观地估计变换,但是在高维空间中如何做到这一点?

也许有点偏离主题,但我也了解了 PCA,以便丢弃那些一开始就无法提供太多信息的组件。这值得一试吗?

感谢您的帮助。

最佳答案

除了线性和多项式之外,您是否尝试过其他核函数,例如 RBF?由于不同的数据集可能具有不同的特征,因此某些核函数可能比其他核函数工作得更好,特别是在非线性情况下。

我不知道你用的是哪些工具,但是下面这个也为初学者提供了如何构建SVM模型的指南:

https://www.csie.ntu.edu.tw/~cjlin/libsvm/

首先进行特征选择步骤总是一个好主意,特别是对于高维数据。那些嘈杂或不相关的特征应该被去除,从而获得更好的性能和更高的效率。

关于machine-learning - 如何在分类中将多个输入建模为单个输出?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49788084/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com