gpt4 book ai didi

python - 处理缺失值: When 99% of the data is missing from most columns (important ones)

转载 作者:行者123 更新时间:2023-11-30 09:42:49 25 4
gpt4 key购买 nike

我的一个项目面临着两难的境地。很少有变量没有足够的数据,这意味着几乎 99% 的数据观测值缺失。

我正在考虑几个选择 -

  • 使用均值/knn 插补来插补缺失值

  • 用 0 估算缺失值。

我想不出这个方向的任何东西。如果有人可以提供帮助那就太好了。

附注当 99% 的数据丢失时,我对使用平均插补感到不舒服。有人有这样的理由吗?请告诉我。

数据有 397576 个观测值,其中缺失值如下 enter image description here

最佳答案

99% 的数据丢失了!!!???那么,如果您的数据集的示例少于 100,000 个,那么您可能需要删除这些列,而不是通过任何方法进行插补。如果您有更大的数据集,那么使用均值插补或 knn 插补将是......好的。这些方法不会捕获数据的统计信息,并且会耗尽内存。相反,使用机器学习的贝叶斯方法,例如通过数据拟合高斯过程或将变分自动编码器拟合到那些稀疏列。
1.) 以下是一些学习和使用高斯过程从数据集中采样缺失值的链接:
What is a Random Process
How to handle missing values with GP?

2.) 您还可以使用 VAE 来估算缺失值!!!
Try reading this paper

希望这会有所帮助!

关于python - 处理缺失值: When 99% of the data is missing from most columns (important ones),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56615889/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com