gpt4 book ai didi

validation - 处理数据集中的缺失值

转载 作者:行者123 更新时间:2023-11-30 09:55:26 25 4
gpt4 key购买 nike

我们应该在多大程度上填充数据集中某个特征的缺失值,以免它变得多余?

我有一个最多包含 42000 个观察值的数据集。有 3 个特征缺少大约 20000、35000 和 7000 个值。我是否仍然应该通过填充这些缺失值来使用它们或转储这三个功能?

给定特征的缺失值数量,我们如何决定保留或转储该特征的阈值?

最佳答案

通常,您可以从数据集中最近的样本中插入缺失值,我喜欢这本关于缺失值的 pandas 手册 http://pandas.pydata.org/pandas-docs/stable/missing_data.html ,它列出了许多可能的技术来从数据集的已知部分插入缺失值。

但就你的情况而言,我认为最好删除这两个第一个特征,因为我怀疑当你有如此大量的缺失值时,是否可以对缺失值进行任何好的插值,几乎超过一半值。

但是您可以尝试修复缺少值的第三个功能。

关于validation - 处理数据集中的缺失值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32919000/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com