gpt4 book ai didi

machine-learning - 使用完整数据集进行预测是一个好习惯吗?

转载 作者:行者123 更新时间:2023-11-30 08:52:21 27 4
gpt4 key购买 nike

我知道您应该将训练数据与测试数据分开,但是当您使用模型进行预测时,可以使用整个数据集吗?

我认为分离训练和测试数据对于评估不同模型的准确性和预测强度很有值(value),但是一旦您选择了模型,我就认为使用完整数据集进行预测有任何缺点。

最佳答案

您可以使用完整数据进行预测,但更好地保留训练和测试数据的索引。以下是它的优点和缺点:

优点:

  1. 如果您保留属于训练和测试数据的行索引,那么您只需预测一次(从而节省时间)即可获得所有结果。使用训练集和测试集索引对实际值和预测值进行子集化后,您可以分别计算训练数据和测试数据的性能指标(R2/MAE/AUC/F1/精度/召回率等)。

缺点:

  1. 如果您计算整个数据集的性能指标(没有使用索引明确区分训练和测试),那么您的估计将会过于乐观。发生这种情况是因为(经过训练数据训练)模型给出了良好的训练数据结果。这取决于训练和测试的百分比分割,将给出虚假的良好性能指标值。
  2. 一次处理大量测试数据可能会造成内存膨胀,这可能会导致 R 等内存中对象语言崩溃。

关于machine-learning - 使用完整数据集进行预测是一个好习惯吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39605417/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com