gpt4 book ai didi

使用pandas或numpy处理数据中的空值(np.isnan()/pd.isnull())

转载 作者:qq735679552 更新时间:2022-09-27 22:32:09 26 4
gpt4 key购买 nike

CFSDN坚持开源创造价值,我们致力于搭建一个资源共享平台,让每一个IT人在这里找到属于你的精彩世界.

这篇CFSDN的博客文章使用pandas或numpy处理数据中的空值(np.isnan()/pd.isnull())由作者收集整理,如果你对这篇文章有兴趣,记得点赞哟.

最近在做数据处理的时候,遇到个让我欲仙欲死的问题,那就是数据中的空值该如何获取.

我的目的本来是获取数据中的所有非零且非空值,然后再计算获得到的所有数据计算均值,再用均值把0和空值填上。这个操作让我意识到了i is None/np.isnan(i)/i.isnull()之间的差别,再此做简单介绍:

1.关于np.nan:

先明确一个问题,即空值的产生只有np.nan()一种方法.

?
1
2
3
4
5
6
7
8
9
10
11
12
13
# np.nan()的一些奇妙性质:
 
np.nan = = np.nan
>>> False
 
np.isnan(np.nan)
>>> True
 
np.nan is None
>>> False
 
type (np.nan)
>>> float

总结一下:

np.nan不是一个“空”对象,用 i is None判断是False; 。

对某个值是否为空值进行判断,只能用np.isnan(i)函数,万万不可用 i == np.nan()来做,否则你会死的很惨的,因为空值并不能用判断相等的“==”正确识别(上例前两条); 。

np.nan非空对象,其类型为基本数据类型float(是不是很神奇,我也不知道为什么要这样设计) 。

2.np.isnan()和pd.isnull()何时使用:

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
# 首先创建一个DataFrame:
bb = pd.DataFrame({ 'a' :[ 0 , 1 , 2 ,np.nan]})
bb
 
>>>     a
     0 0.0
     1 1.0
     2 2.0
     3 NaN
 
# 先测试一下np.isnan()
np.isnan(bb)
>>>     a
     0 False
     1 False
     2 False
     3 True
# 值得一提的是,如果想获悉整个DataFrame有无空值,可以在此基础上这样做:
 
np.isnan(bb). all ()
>>> a    False
     dtype: bool          # 这行是指返回值的dtype
 
# 再测试一下isnull()
pd.isnull(bb)
>>>     a
     0 False
     1 False
     2 False
     3 True

由上可见,其实np.isnan()和pd.isnull()都可以对不论是DataFrame、Python list还是仅仅一个数值进行空值检测。但一般在实际应用中,np.isnan()多用于单个值的检验,pd.isnull()用于对一个DataFrame或Series(整体)的检验.

此外,根据pandas官方文档和源代码,pandas提供的另一个函数pd.isna()与pd.isnull()完全一样.

上面提到的any()/all()函数,请见pandas文档:

https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.all.html#pandas.DataFrame.all 。

https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.any.html#pandas.DataFrame.any 。

其他与空值检测或删除相关的函数还有:notna()、fillna()、dropna()等等。实战中应灵活使用.

补充:numpy中的nan(判断一个元素等于nan, 及nan安全函数 ) 。

Nunpy中的NaN

多种方式创建nan(空值)

?
1
2
3
4
5
6
7
import numpy as np
np.nan
nan
np.NaN
nan
np.NAN
nan

判断是否存在空值

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
x = np.array([ 1 , 1 , 8 , np.nan, 10 ])
np.nan in x
 
False
np.isin(np.nan, x)
array( False )
1 in x
True
np.isin( 1 , x)
array( True )
np.isnan(x)
array([ False , False , False True , False ])
x[ - 2 ] = = np.nan, np.isnan(x[ - 2 ])
( False , True )

在np中nan需要用isnan这个函数来识别,还要注意:

?
1
2
x
array([ 1. 1. 8. , nan, 10. ])

x 中所有的元素都变成了浮点型,这是因为nan是浮点型的.

nan安全函数

?
1
2
3
4
np.mean(x)
nan
np.nanmean(x)
5.0

此外max, min, median等都是默认非nan安全的,需要加上nan来标记nan安全.

ps:pandas中是默认nan安全的.

补充:Python 处理DataFrame数据 pd.isnull() np.isnan()的方式 。

数据处理时,经常会遇到处理数据中的空值,涉及几个常用函数,pd.isnull(),pd.notnull(),np.isnan(),pd.notna(),pd.isna(),pd.fillna()、pd.dropna()等等. 。

本文关注pd.isnull(),pd.notnull(),np.isnan(),pd.notna(),pd.isna().

总结:

由下可知,np.isnan()和pd.isnull()都可以对不论是DataFrame、Python list还是仅仅一个数值进行空值检测。但一般在实际应用中,np.isnan()多用于单个值的检验,pd.isnull()用于对一个DataFrame或Series(整体)的检验.

1.pd.isnull()

pd.isnull()可以对不论是DataFrame、Python list还是仅仅一个数值进行空值检测。但一般在实际应用中,pd.isnull()用于对一个DataFrame或Series(整体)的检验.

此外,根据pandas官方文档和源代码,pandas提供的另一个函数pd.isna()与pd.isnull()完全一样.

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
# 首先创建一个DataFrame:
df = pd.DataFrame({ 'a' :[ 0 , 1 , 2 ,np.nan]})
df
 
>>>     a
     0 0.0
     1 1.0
     2 2.0
     3 NaN
 
# 测试isnull()
pd.isnull(df)
>>>     a
     0 False
     1 False
     2 False
     3 True
 
# 测试isna()
pd.isna(df)
>>>     a
     0 False
     1 False
     2 False
     3 True
 
# 测试notnull()
pd.notnull(df)
>>>     a
     0 True
     1 True
     2 True
     3 False
 
# 测试notna()
pd.notna(df)
>>>     a
     0 True
     1 True
     2 True
     3 False

2.np.nan()

判断是否为np.nan().

np.nan不是一个“空”对象,对某个值是否为空值进行判断,只能用np.isnan(i)函数.

np.nan非空对象,其类型为基本数据类型float.

np.nan()可以对不论是DataFrame、Python list还是仅仅一个数值进行空值检测。但一般在实际应用中,np.nan()多用于单个值的检验.

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
np.nan = = np.nan
>>> False
 
np.isnan(np.nan)
>>> True
 
type (np.nan)
>>> float
 
np.nan is None
>>> False
 
np.isnan(df)
>>>     a
     0 False
     1 False
     2 False
     3 True

以上为个人经验,希望能给大家一个参考,也希望大家多多支持我.

原文链接:https://blog.csdn.net/weixin_41712499/article/details/82719987 。

最后此篇关于使用pandas或numpy处理数据中的空值(np.isnan()/pd.isnull())的文章就讲到这里了,如果你想了解更多关于使用pandas或numpy处理数据中的空值(np.isnan()/pd.isnull())的内容请搜索CFSDN的文章或继续浏览相关文章,希望大家以后支持我的博客! 。

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com