gpt4 book ai didi

python - 如何获取 pandas 数据框列中 NaN 观测值的频率

转载 作者:行者123 更新时间:2023-11-30 23:13:17 25 4
gpt4 key购买 nike

我有一个包含 83 列和 4000 行的 pandas 数据框。我打算将这些数据用于逻辑回归,因此希望将我的列范围缩小到丢失数据量最少的列。

为此,我考虑根据 NaN 观察的频率对它们进行排名。我尝试了一些事情,比如

econ_balance["BG.GSR.NFSV.GD.ZS"].describe()
econ_balance["BG.GSR.NFSV.GD.ZS"].value_counts
econ_balance["BG.GSR.NFSV.GD.ZS"]["NaN"]
econ_balance["BG.GSR.NFSV.GD.ZS"][NaN]

这些似乎都不起作用。我总是尝试用谷歌搜索看看这个问题以前是否已经得到解答,但没有运气。

提前感谢您的帮助

乔什

最佳答案

如果您只是想计算 NaN 值:

In [2]:

df = pd.DataFrame({'a':[0,1,np.NaN,np.NaN,np.NaN],'b':np.NaN, 'c':[np.NaN,1,2,3,np.NaN]})
df
Out[2]:
a b c
0 0 NaN NaN
1 1 NaN 1
2 NaN NaN 2
3 NaN NaN 3
4 NaN NaN NaN
In [6]:

df.isnull().astype(int).sum()
Out[6]:
a 3
b 5
c 2
dtype: int64

编辑@CTZhu 指出类型转换是不必要的:

In [7]:

df.isnull().sum()
Out[7]:
a 3
b 5
c 2
dtype: int64

关于python - 如何获取 pandas 数据框列中 NaN 观测值的频率,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29398903/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com