gpt4 book ai didi

machine-learning - lightgbm python 数据集引用参数是什么意思?

转载 作者:行者123 更新时间:2023-11-30 08:42:16 25 4
gpt4 key购买 nike

我试图弄清楚如何在 python 中使用 lightgbm 训练 gbdt 分类器,但对 the official website 上提供的示例感到困惑。按照列出的步骤,我发现validation_data来自任何地方,并且没有关于valid_data的格式的线索,也没有关于有或没有它的训练模型的优点或效用的线索。 validation data creation step另一个问题是,在文档中,据说“验证数据应该与训练数据对齐”,当我查看数据集详细信息时,我发现还有另一个声明表明“如果这是数据集为了进行验证,应使用训练数据作为引用”。我的最后一个问题是,为什么验证数据应该与训练数据保持一致?数据集中引用的含义是什么以及在训练过程中如何使用它?是否通过训练数据的引用集来实现对齐目标?这种“引用”策略和交叉验证有什么区别?希望有人能帮助我走出这个迷宫,谢谢!

最佳答案

“验证数据应与训练数据保持一致”的想法很简单:对训练数据进行的每次预处理,当然都应该以与验证数据和生产过程相同的方式进行。这适用于所有机器学习算法。

例如,对于神经网络,您通常会标准化您的训练输入(减去均值并除以标准差)。假设您有一个变量“年龄”,训练时的平均年龄为 26 岁。它将被映射到“0”以训练您的神经网络。对于验证数据,您希望以与训练数据相同的方式进行标准化(使用训练平均值和训练标准差),以便验证中的 26yo 仍然映射到 0(相同的值 -> 相同的预测)。

这对于 LightGBM 来说是一样的。数据将为“bucketed ”(简而言之,每个连续值都将被离散化),并且您希望将连续值映射到训练和验证中的相同容器。这些分箱将使用“引用”数据集进行计算。

关于未经验证的训练,大多数时候你不想这样做!如果您没有验证来调整“num_boost_round”等参数,则很容易用提升树过度拟合训练数据。

关于machine-learning - lightgbm python 数据集引用参数是什么意思?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56804254/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com