gpt4 book ai didi

r - 通过随机森林和神经网络人为增加回归训练数据

转载 作者:行者123 更新时间:2023-11-30 09:19:25 25 4
gpt4 key购买 nike

我们正在尝试根据其属性值来预测销售量。我们有大约 8000 条记录的数据用于训练。通过为相同的 8000 条记录添加销售量的小变化来增加训练数据是否正确?我想准备新的训练集,包含 24000(3*8000) 条记录,这 8000 条记录的销售数量 + 或 - 0.1

例如:如原始数据销售数量=2,则新数据对于同一商品将有 2,2.1 和 1.9。

最佳答案

变异的有用性取决于属性的标量。例如,如果您的特征范围是 (0-100),则添加 +/- 0.1 是没有用的。如果是(0 < x < +1,只是一个例子),那么是的,变化可以产生很大的差异。

我认为更好的方法是标准化您的数据 ( http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.normalize.html ),然后添加变化。

如果您有分类数据,则可以根据需要将它们转换为虚拟变量 ( https://pandas.pydata.org/pandas-docs/stable/generated/pandas.get_dummies.html )。

关于r - 通过随机森林和神经网络人为增加回归训练数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45486049/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com