gpt4 book ai didi

algorithm - 为特征选择实现反​​向贪婪

转载 作者:塔克拉玛干 更新时间:2023-11-03 04:48:08 25 4
gpt4 key购买 nike

我正在尝试应用具有 1700 个特征和 3300 个实例的数据集的特征选择。特征选择的一种方法是逐步回归。它是一种贪心算法,每轮删除最差的特征。

我使用数据在 SVM 上的性能作为指标来找出最差的特征。第一次,我训练 SVM 1700 次,每次只保留一个特征。在此迭代结束时,我从集合中删除了其删除导致最高 SVM 性能的特征。所以我们现在剩下 1699 个特征。

第二次,我对 SVM 进行了 1699 次训练,每次都保留一个特征,依此类推。

如果我想将数据集减少到 100 个特征,那么这个程序将训练 SVM (1700!-100!) 次。这是棘手的。关于如何避免此类问题的任何建议?

最佳答案

我首先要说的是,您可能想要考虑一种不同的算法,例如使用信息增益。

但是,要回答这个问题:您可以尝试在每次迭代中消除一个以上的特征;从消除许多功能开始,并随着您的进步减少这个数字。

例如在第一次运行(1700 个 SVM 训练)之后,不是只消除一个特征,而是消除最差的 200 个特征,然后重复 1500 个等。当你达到,比如说,300 个特征时,每次开始消除 10 个;然后从 150 到 100 每次迭代后只消除一个。这将需要“仅”训练 SVM 大约 20K 次。如果数量仍然太多,您可以增加数量。我推测结果会非常相似,或者至少不会比按照您的建议运行差很多。

关于algorithm - 为特征选择实现反​​向贪婪,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16935341/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com