- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在尝试在加速度计数据集上训练随机森林。我计算平均值、标准差、轴之间的相关性、曲线下面积等特征。我是 ML 菜鸟。
我试图理解两件事:
1.如果我将一个人的数据集分成测试和训练并运行 RF 预测,则准确度很高 (> 90%)。但是,如果我用不同人的数据训练 RF 然后进行预测,准确率就会很低(< 50%)。为什么?我该如何调试这个?不确定我做错了什么。
我可以提供更多细节。数据集来自 10 个人,大文件的标记数据。我将自己限制在上述功能上以避免大量计算。
最佳答案
很可能你的分类器过度拟合,当你只在一个人身上训练它时,它不能很好地概括,它可能只是简单地“记住”带有标签的数据集,而不是捕获一般的分布规则:每个特征如何与其他特征相关/如何它们影响结果/等。也许您需要更多数据或更多功能。
这不是一个简单的问题,它是泛化问题,对此有很多理论研究,例如:Vapnik–Chervonenkis theory Akaike_information_criterion 。即使了解这些理论,你也无法准确回答这个问题。大多数此类理论的主要原则是——您拥有的数据越多,您尝试拟合的变量模型越少,并且您所需的训练和测试的准确性之间的差异越小——该理论将使您的模型排名更高。例如,如果您不想最小化测试集和训练集的准确性之间的差异(以确保测试数据的准确性不会崩溃) - 您需要增加数据量,提供更有意义的功能(相对于您的模型),或者使用较少变量的模型进行拟合。如果你对理论方面更详细的解释感兴趣,你可以观看加州理工学院的讲座,从这个开始CaltechX - CS1156x Learning from data .
关于machine-learning - ML 的功能够不够?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31550337/
我是一名优秀的程序员,十分优秀!