gpt4 book ai didi

matlab - 机器学习 - 在训练数据中引入偏差

转载 作者:行者123 更新时间:2023-11-30 09:55:10 27 4
gpt4 key购买 nike

我有用于训练的数据。当我将其输入神经网络时,该数据出现 3% 的错误。

我知道这些数据有一定的过度代表性 - 例如,第 5 类的示例大约是其他类的十分之一。

我的作业指出,我可以通过偏置训练数据(即删除或重复某些数据)来提高检测率。然而,在我看来,神经网络应该能够自动解释这一点,而我所做的任何修改只会大大降低网络的准确性。

我特别困惑,因为我应该判断网络是否有所改进的方法是根据原始训练分区进行测试。在我看来,使用训练分区的修改版本进行训练总是会给原始训练分区带来更差的检测率,但分配似乎表明情况并非如此。

由于这是家庭作业,我希望得到提示而不是直接答案。

最佳答案

It seems to me that using a modified version of the training partition to train will always give you a worse detection rate on the original training partition, but the assignment seems to indicate otherwise.

简而言之,这不是真的。训练集可以帮助您最小化经验风险(训练集上的错误)。另一方面,您试图最小化泛化风险(测试集上的错误),在这里 - 添加一些额外的偏差(以多种形式)实际上可能会有所帮助,因为它可以防止您过度拟合。特别是,在处理类别的高度不平衡时,经验风险最小化可能会导致完全忽略少数(特别是在基于 SGD 的方法中,其中单次更新可能不足以摆脱更大类别的更强吸引子),因此偏差(以某种方式)可能会改善整体分类。

关于matlab - 机器学习 - 在训练数据中引入偏差,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34100061/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com