gpt4 book ai didi

machine-learning - 何时使用 k 重交叉验证以及何时使用分割百分比?

转载 作者:行者123 更新时间:2023-11-30 08:54:47 28 4
gpt4 key购买 nike

哪种数据集从使用 k 折验证中获益最多?它通常是比标准分割百分比更好的选择吗?

最佳答案

简短的回答是:小。

更长的版本 - 当单个随机数据样本不代表基础分布的样本时,您可以使用 k 折分割(或 Bootstrap 等)。数据集的大小只是一个启发式的方法,它试图捕捉这种现象。问题是 - 你的分布越复杂 - 越大就“足够大”。因此,如果您的问题是二维分类,您可以几乎完美地拟合线性模型,那么即使您只有几百个点,您也可能可以使用单个随机分割。另一方面,如果您的数据来自极其复杂的分布,这违反了独立同分布假设等,您将需要大量的分割来恢复可靠的统计数据。

那么如何决定呢?一般来说 - 如果你能负担得起(就计算时间而言),请执行 k 倍 cv。这样你就不会损害你的进程。另一种统计上更合理的方法是收集数据的多个统计数据,例如 - 每个分割的边际分布(每个特征的投影)的 KDE,以及整个数据集并比较这三个 - 如果它们几乎相同,那么您就是这样的分割很好。如果您可以注意到(无论是视觉上还是通过统计测试)这些分布显着不同 - 那么您必须添加 k 倍 cv (或其他减少结果方差的技术)。

关于machine-learning - 何时使用 k 重交叉验证以及何时使用分割百分比?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37003095/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com