gpt4 book ai didi

r - 我是否排除训练集中使用的数据来运行预测()模型?

转载 作者:行者123 更新时间:2023-11-30 09:19:54 25 4
gpt4 key购买 nike

我有一个关于对用于训练集的数据运行预测的问题。

我选取了初始数据集的一部分,并将该部分分为 80%(训练)和 20%(测试)。我在 80% 的训练集上训练了模型

model <- train(name ~ ., data = train.df, method = ...)

然后在 20% 的测试数据上运行模型:

predict(model, newdata = test.df, type = "prob")

现在我想在初始数据集上使用经过训练的模型进行预测,其中还包括训练部分。我需要排除用于训练的部分吗?

最佳答案

当您向第三方报告机器学习模型的准确性时,您始终会报告在训练(和验证)中未使用的数据集上获得的准确性。

您可以报告整个数据集的准确度数字,但始终注明该数据集还包括用于训练机器学习算法的数据分区。

采取这种措施是为了确保您的算法不会过度拟合您的训练集:https://en.wikipedia.org/wiki/Overfitting

关于r - 我是否排除训练集中使用的数据来运行预测()模型?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43900595/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com