gpt4 book ai didi

分割训练集和测试集时是否打乱

转载 作者:行者123 更新时间:2023-12-02 10:10:41 28 4
gpt4 key购买 nike

我需要一个模型来预测类别。所以我应该将数据拆分为训练集、验证集和测试集。首先,我对数据进行洗牌(80% 用于训练集,20% 用于测试集)。然后因为我应该确定一些超参数,所以我使用 10 倍交叉验证来分割我的训练集。最后,我使用训练集(80% 的数据)和指定的超参数来训练我的模型。我有个问题。我先打乱数据然后再拆分它们是错误的吗?一些研究人员认为,如果你想声称你的模型可以预测 future 的数据,你不应该打乱数据。您应该选择最后 20% 的数据作为测试集。这样对吗?我可以打乱我的数据吗?您能给我介绍一本学术书籍或论文来解决我的问题吗?非常感谢

最佳答案

无论采用何种机器学习技术,都可以采用不同的方式来评估结果。在你的问题中,你必须首先对数据进行洗牌,然后分成训练集和测试集。这种改组应该是随机的;为了避免任何偏差,您重复此过程几次,然后报告平均结果。您还可以计算误差/准确度的标准差,以观察结果是否变化太大。如果是,那么可能是您的模型没有正确学习,您可能需要尝试其他方法或增加数据或执行其他操作。对于NLP类型的问题Goolge建议的shuffle,你可以在这里查看 Step 3: Prepare Your Data

关于分割训练集和测试集时是否打乱,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50101582/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com