gpt4 book ai didi

machine-learning - 对于 98% 的列都是空值的数据集,我们能做什么呢?

转载 作者:行者123 更新时间:2023-11-30 09:32:50 24 4
gpt4 key购买 nike

我想在服务器停机时间发生之前预测它。为了实现这个目标,我从不同的数据源收集了许多数据。

其中一个数据源是指标数据,其中包含CPU时间、CPU百分比、内存使用情况等。但是,该数据集中的列值为空。我的意思是,许多列中 98% 都是空的。

在将数据应用于预测算法之前,可以使用哪种数据准备技术来准备数据。

感谢任何帮助。

最佳答案

如果我处于您的情况,我的第一个选择是忽略此数据源。缺失的数据太多,无法成为任何机器学习算法的相关信息源。

话虽这么说,如果您仍然想使用此数据源,则必须填补空白。仅用 2% 的可用数据推断缺失数据几乎是不可能的,但是当您谈论超过 90% 的缺失数据时,我建议您查看非负矩阵分解 (NMF) here .

该算法的几个版本是implemeted in R ,为了在推断如此大量的缺失数据方面获得更好的结果,您可以阅读 this paper它使用时间序列信息(可能是您的情况)和 NMF 来获得更好的结果。我运行了一些测试,缺失数据高达 95%,结果还不错,因此,如前所述,您可以丢弃一些数据,仅包含 80% 或 90% 的缺失数据,然后对时间序列应用 NMF。

关于machine-learning - 对于 98% 的列都是空值的数据集,我们能做什么呢?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51421481/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com