gpt4 book ai didi

machine-learning - 如何在大数据集中进行抽样建模

转载 作者:行者123 更新时间:2023-11-30 09:10:41 25 4
gpt4 key购买 nike

我需要在 10GB 训练数据集上进行预测建模,该数据集无法装入内存 (8GB)。我正在考虑对大数据集进行多次采样,并在每个子集上进行分割以生成训练和验证集来创建模型。有没有更好的方法来解决问题?谢谢!

最佳答案

以 block 的形式加载数据,然后对随机批处理的数据使用随机梯度下降进行优化,直到 block 耗尽。引入下一个 block 并继续梯度下降。这是 SGD 近乎完美的用例。

如果您的数据集有顺序,您可能需要考虑随机化 block 的顺序以帮助梯度下降。实际上,这可能不会产生影响(但当然可以)。如果您对它的重要性感兴趣,请仔细思考梯度下降数学。

关于machine-learning - 如何在大数据集中进行抽样建模,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39454092/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com