gpt4 book ai didi

machine-learning - ML 的功能够不够?

转载 作者:行者123 更新时间:2023-11-30 09:29:44 28 4
gpt4 key购买 nike

我正在尝试在加速度计数据集上训练随机森林。我计算平均值、标准差、轴之间的相关性、曲线下面积等特征。我是 ML 菜鸟。

我试图理解两件事:

1.如果我将一个人的数据集分成测试和训练并运行 RF 预测,则准确度很高 (> 90%)。但是,如果我用不同人的数据训练 RF 然后进行预测,准确率就会很低(< 50%)。为什么?我该如何调试这个?不确定我做错了什么。

  • 在上面的例子中,要达到 90% 的准确率,多少个特征“足够”?多少数据“足够”?
  • 我可以提供更多细节。数据集来自 10 个人,大文件的标记数据。我将自己限制在上述功能上以避免大量计算。

    最佳答案

    1. 很可能你的分类器过度拟合,当你只在一个人身上训练它时,它不能很好地概括,它可能只是简单地“记住”带有标签的数据集,而不是捕获一般的分布规则:每个特征如何与其他特征相关/如何它们影响结果/等。也许您需要更多数据或更多功能。

    2. 这不是一个简单的问题,它是泛化问题,对此有很多理论研究,例如:Vapnik–Chervonenkis theory Akaike_information_criterion 。即使了解这些理论,你也无法准确回答这个问题。大多数此类理论的主要原则是——您拥有的数据越多,您尝试拟合的变量模型越少,并且您所需的训练和测试的准确性之间的差异越小——该理论将使您的模型排名更高。例如,如果您不想最小化测试集和训练集的准确性之间的差异(以确保测试数据的准确性不会崩溃) - 您需要增加数据量,提供更有意义的功能(相对于您的模型),或者使用较少变量的模型进行拟合。如果你对理论方面更详细的解释感兴趣,你可以观看加州理工学院的讲座,从这个开始CaltechX - CS1156x Learning from data .

    关于machine-learning - ML 的功能够不够?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31550337/

    28 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com