gpt4 book ai didi

machine-learning - 使用已知的 SVM 参数创建合成数据集

转载 作者:行者123 更新时间:2023-11-30 09:54:28 25 4
gpt4 key购买 nike

我想创建一个由 2 个类和 3 个特征组成的合成数据集,用于测试具有 RBF 内核的 SVM 分类器的超参数优化技术。超参数是 gamma 和 C(成本)。

我创建了当前的 3D 合成数据集,如下所示:

  1. 我通过从均值分别为 (1,0,0) 和 (0,1,0) 以及单位方差的多元正态分布中进行采样,为每个类别创建了 10 个基点。

  2. 我通过随机选择一个基点,然后从均值等于所选基点和方差 I/5 的正态分布中采样一个新点,为每个类别添加了更多点。

如果我能够从数据集中确定最佳 C 和 gamma(在运行 SVM 之前),那将是一件非常酷的事情,这样我就可以看到我的优化技术最终是否为我提供了最佳参数。

是否有可能从上述合成数据集中计算最佳 gamma 和 C 参数?

或者有没有办法创建一个已知最佳 Gamma 和 C 参数的合成数据集?

最佳答案

非常有趣的问题,但答案是否定的。它完全是数据特定的,即使确切地知道分布,除非你有无限的样本,否则在数学上不可能证明最好的 C/gamma,因为 SVM 最终是纯粹基于点的方法(而不是基于密度估计)。典型的比较是在不同的场景中完成的 - 您获取真实数据,并使用其他技术拟合超参数,例如高斯过程(贝叶斯优化)等,这些技术生成基线(并且可能也会达到最佳 C 和 gamma,或者至少非常接近)给他们)。最后,寻找最佳的 C 和 gamma 并不是复杂的问题,因此只需长时间运行良好的技术(如 bayesopt),您就会得到最佳值来进行比较。此外,请记住,超参数优化的任务不是找到特定的 C 和 gamma,而是找到产生最佳结果的超参数,事实上,即使对于 SVM,可能有许多组“最佳”C 和 gamma,尽管彼此相距很远,但它们都产生相同的结果(就有限数据集而言)。

关于machine-learning - 使用已知的 SVM 参数创建合成数据集,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37139836/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com