gpt4 book ai didi

machine-learning - 我应该保留/删除代表不同对象的相同训练示例吗?

转载 作者:行者123 更新时间:2023-11-30 08:26:16 24 4
gpt4 key购买 nike

我准备了一个数据集来识别某种类型的对象(大约 2240 个负面对象示例,只有大约 90 个正面对象示例)。然而,在为数据集中的每个对象计算 10 个特征后,唯一训练实例的数量分别下降到约 130 和 30。

由于相同的训练实例实际上代表不同的对象,我可以说这种重复保存了相关信息(例如对象特征值的分布),这可能以某种方式有用吗?

最佳答案

如果省略重复项,则会扭曲每个不同对象的基本速率。如果训练数据是现实世界的代表性样本,那么您不希望这样,因为您实际上将针对一个稍微不同的世界(具有不同基本速率的世界)进行训练。

为了阐明这一点,请考虑一个只有两个不同对象的场景。您的原始数据包含 99 个对象 A 和 1 个对象 B。丢弃重复项后,您将拥有 1 个对象 A 和 1 个对象 B。在去重数据上训练的分类器将与在原始数据上训练的分类器有很大不同。

我的建议是保留数据中的重复项。

关于machine-learning - 我应该保留/删除代表不同对象的相同训练示例吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26197700/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com