gpt4 book ai didi

machine-learning - 决策树学习算法中的重复训练数据

转载 作者:行者123 更新时间:2023-11-30 09:11:36 26 4
gpt4 key购买 nike

我有以下训练数据集,其中第一行显示属性名称。

S_Length, Se_Width, P_Length, P_Width, Predicate
5.1,3.5,1.4,0.2,Ili
4.9,3.0,1.4,0.2,Iri
4.7,3.2,1.3,0.2,Iyr
4.6,3.1,1.5,0.2,Ir
5.0,3.6,1.4,0.2,Po
5.4,3.9,1.7,0.4,II
4.6,3.1,1.5,0.2,Ir
5.0,3.4,1.5,0.2,Imt
4.6,3.1,1.5,0.2,Ir

在上述数据集中,第 4,7 和 9 行中的数据集是重复的。它如何影响算法?我应该省略重复的数据吗?

最佳答案

如果这是正确收集的数据(某些随机过程/问题的随机样本),那么您永远不应该删除样本。这只是您的数据的特征,您采样了两个具有相同表示的对象。有效地,这会更加重视这一点,如果现实是这样的话,这是一个有效的做法。简而言之,永远不要删除任何东西,除非你100%确定这是由于错误或者你想要实现一些不标准的东西(比如偏见)针对不同分布的估计器、计算效率的近似解等)。

关于machine-learning - 决策树学习算法中的重复训练数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35376072/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com