如何将numpy二维数组中的np.nan值替换为指定的值-6ren

如何将numpy二维数组中的np.nan值替换为指定的值

转载作者：qq735679552 更新时间：2022-09-27 22:32:09

CFSDN坚持开源创造价值，我们致力于搭建一个资源共享平台，让每一个IT人在这里找到属于你的精彩世界.

这篇CFSDN的博客文章如何将numpy二维数组中的np.nan值替换为指定的值由作者收集整理，如果你对这篇文章有兴趣，记得点赞哟.

基础知识：

（1）np.nan表示该值不是一个数，比如数据中收入、年龄的缺失值；np.inf表示无穷大。

（2）np.nan == np.nan 的结果为False 。

（3）nan与任何数的操作结果均为nan,例如sum((np.nan,4)) 的结果为nan 。

（4）一个ndarray数组t1，可以用np.isnan(t1) 定位到nan值的位置，再用t1[np.isnan(t1)] = 指定值将nan替换为指定值。

（5）np.nan_to_num(t1)，可以将t1中的nan替换为0 。

（6）t1[ t1 == t1]可以剔除所有nan只保留非nan值。

现在生成一个3*4的数组，设定第1行，第2、3列位置两个元素为np.nan 。

 
    ? 
   
         import 
         numpy as np 
        
         t1  
         = 
         np.arange( 
         12 
         ).reshape( 
         3 
         , 
         4 
         ).astype( 
         'float' 
         ) 
        
         t1[ 
         1 
         , 
         2 
         :]  
         = 
         np.nan 
        
         print 
         (t1)

[[ 0. 1. 2. 3.] 。

[ 4. 5. nan nan] 。

[ 8. 9. 10. 11.]] 。

1. 问题1：

如何将t1中的nan替换为0 。

 
    ? 
   
         #方法1： 
        
         for 
         i  
         in 
         range 
         (t1.shape[ 
         1 
         ]): 
        
         col  
         = 
         t1[:,i] 
        
         col[np.isnan(col)]  
         = 
         0 
        
         #方法2：调用np.nan_to_num方法 
        
         t1  
         = 
         np.nan_to_num(t1) 
        
         #方法3：或用np.isnan(t1)做索引，然后替换，建议用该方法 
        
         t1[np.isnan(t1)]  
         = 
         0

方法3不但可以替换为0，替换为其它值也可，建议使用.

2. 问题2：

如何将t1中的nan替换为某些计算之后的值，例如将其替换为该列所有非 nan元素的均值。

将原始数据中缺失的值替换为0有时未必是合适的。例如原始数据中某些人的年龄没有填，如果替换为0，将来在计算年龄平均值或做数据分析时就存在不合理的后果。此时，将年龄缺失的的人的年龄设为均值更为合理.

（1）方法1

 
    ? 
   
         #方法1： 
        
         for 
         i  
         in 
         range 
         (t1.shape[ 
         1 
         ]): 
        
         col  
         = 
         t1[:,i] 
        
         #当前列中如果存在nan,由于np.nan不等于np.nan,所以如果某列中存在nan,则col!=col将会有元素为True,np.count_nonzero方法将会累计值为True的元素数量，可以通过这种方法来判断该列是否存在nan 
        
         nan_num  
         = 
         np.count_nonzero(col ! 
         = 
         col) 
        
         if 
         nan_num: 
        
         not_nan_col  
         = 
         col[col  
         = 
         = 
         col]  
         #用布尔矩阵col == col做索引来筛选矩阵，布尔矩阵中False位置的元素将被剔除。 
        
         col[np.isnan(col)]  
         = 
         not_nan_col.mean() 
        
         print 
         (t1)

运行结果:

[[ 0. 1. 2. 3.] 。

[ 4. 5. 6. 7.] 。

[ 8. 9. 10. 11.]] 。

（2）方法2

 
    ? 
   
         #方法2：np.nanmean方法可以计算非nan值的均值,此外还有np.nanmax, np.nanmin方法。所以上述程序可以改写如下： 
        
         mean  
         = 
         np.nanmean(t1,axis 
         = 
         0 
         ) 
        
         print 
         ( 
         '各列的均值为:%s' 
         % 
         mean) 
        
         for 
         i  
         in 
         range 
         (t1.shape[ 
         1 
         ]): 
        
         col  
         = 
         t1[:,i] 
        
         col[np.isnan(col)]  
         = 
         mean[i] 
        
         print 
         (t1)

运行结果同上。

（3）方法3

使用功能强大的pandas库。

 
    ? 
   
         #也可以用pandas来处理,更为简单便捷 
        
         import 
         pandas as pd 
        
         df  
         = 
         pd.DataFrame(t1) 
        
         t1  
         = 
         df.fillna(df.mean()).values   
         #values代替as_matrix()，可以将DataFrame转换为ndarray 
        
         print 
         (t1)

运行结果同上.

补充：python 快速替换Numpy 中的Nan（空值）和inf （无限值）。

在做数据处理的时候由于要保证数据的个数不变，需要把数据中的空值和无穷值替换为指定的值（此处为255），考虑到数据量比较大（50000000条数据），效率也是一个考虑因素.

下面主要给出了替换数据的核心代码

 
    ? 
   
         # +--+--+--+--+--+--+--+--+--+--+ 
        
         print 
         ( 
         'Predict New Data......' 
         ) 
        
         start  
         = 
         datetime.datetime.now() 
        
         dataPre  
         = 
         input_Data    
         # 此处输入需要处理的原始数据 
        
         # 0: 00:23.012951  标记了这个方法的时间（以50000000条数据为例） 
        
         dataPre0  
         = 
         np.array(dataPre) 
        
         dataPre0[np.isnan(dataPre0)]  
         = 
         255 
        
         dataPre0[np.isinf(dataPre0)]  
         = 
         255 
        
         # 0:02:03.038840 
        
         dataPre1  
         = 
         (dataPre) 
        
         dataPre1  
         = 
         dataPre1.replace([np.inf,  
         - 
         np.inf], np.nan) 
        
         dataPre1  
         = 
         dataPre1.fillna(value  
         = 
         255 
         ) 
        
         # 0:02:03.140287 
        
         dataPre2  
         = 
         (dataPre) 
        
         dataPre2  
         = 
         (dataPre2.replace([np.inf,  
         - 
         np.inf], np.nan)).fillna(value  
         = 
         255 
         )     
         # shi yong te ding shuju tian chong 
        
         # 0:00:30.346661 
        
         dataPre3  
         = 
         np.array(dataPre) 
        
         dataPre3[(dataPre3  
         = 
         = 
         float 
         ( 
         'inf' 
         )) | (dataPre3  
         = 
         = 
         float 
         ( 
         '-inf' 
         )) | (dataPre3  
         = 
         = 
         float 
         ( 
         'nan' 
         ))]  
         = 
         255 
        
         # 0:00:19.702519 
        
         dataPre4  
         = 
         np.array(dataPre) 
        
         dataPre4[np.isinf(dataPre4)]  
         = 
         np.nan   
         # 将数组里面的无穷值转为空值 
        
         dataPre4[np.isnan(dataPre4)]  
         = 
         255  
         # # 将nan值替换为255 
        
         # 0:01:10.404677 
        
         dataPre5  
         = 
         np.array(dataPre) 
        
         dataPre5  
         = 
         np.where(np.isnan(dataPre5),  
         255 
         , dataPre5) 
        
         dataPre5  
         = 
         np.where(np.isinf(dataPre5),  
         255 
         , dataPre5)

可以看出几种方法的效率差别还是比较大的，尤其是使用了replace或者np.where函数的方法，比较慢.

以上为个人经验，希望能给大家一个参考，也希望大家多多支持我.

原文链接：https://blog.csdn.net/matlab2007/article/details/102635374 。

最后此篇关于如何将numpy二维数组中的np.nan值替换为指定的值的文章就讲到这里了,如果你想了解更多关于如何将numpy二维数组中的np.nan值替换为指定的值的内容请搜索CFSDN的文章或继续浏览相关文章，希望大家以后支持我的博客！。

文章推荐： java 垃圾回收机制以及经典垃圾回收器详解

文章推荐： php中类和对象：静态属性、静态方法

文章推荐：使用numpy nonzero 找出非0元素

文章推荐： C++使用一个栈实现另一个栈的排序算法示例

integration - 集成 np、np 完整、np 是困难的还是以上都不是？
有时评估积分非常困难，但很容易验证解是否正确。在我看来它至少应该是 np，但我对这个概念的理解是有限的，我可能会遗漏一些东西编辑:为了清楚起见，我很好奇算法的复杂性，该算法找到函数的反导数以解决不定
algorithm - 显示 NP、NP-完全性或 NP-硬度
我对这三个类别的理解是否正确？要证明问题 X 是 NP: 表明 X 可以在多项式时间内确定性地得到验证(或者X 可以使用 NTM 解决) 要证明问题 X 是 NP 完全的: 表明 X 可以在多项式时
computer-science - NP、NP-Complete 和 NP-Hard 之间有什么区别？
有什么区别NP , NP-完全和 NP-Hard ? 我知道网上有很多资源。我想阅读你的解释，原因是它们可能与外面的不同，或者有一些我不知道的东西。最佳答案我假设您正在寻找直观的定义，因为技术定义
python - np.float 不匹配 np.float32 和 np.float64
我正在寻找一种方法来检查 numpy 数组是 np.float64 还是 np.float32。这适用于 np.float64: a = np.random.rand(10) if not issub
python - `np.nanargmin([np.nan, np.inf]) = 0`背后的逻辑
我知道 np.nanargmin 找到列表中不是 NaN 的最小数字。但是，如果调用数组 [np.nan, np.inf]，它会产生 0，这是一个 NaN。我发现这种行为很奇怪，我只是想知道以这种方式
algorithm - 如果 P=NP 那么我们怎么能说 P=NP=NP-complete？
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。这个问题似乎与 help center 中定义的范围内的编程无关。 . 关闭 8 年前。 Improve
python - np.empty、np.zeros 和 np.ones 的性能
我很好奇使用 np.empty 到底有多大不同？而不是 np.zeros ，以及关于 np.ones 的区别.我运行这个小脚本来对每个创建大型数组所花费的时间进行基准测试: import numpy
详解Numpy扩充矩阵维度(np.expand_dims, np.newaxis)和删除维度(np.squeeze)的方法
在操作矩阵的时候，不同的接口对于矩阵的输入维度要求不同，输入可能为1-D，2-D，3-D等等。下面介绍一下使用Numpy进行矩阵维度变更的相关方法。主要包括以下几种： 1、np.newaxis扩充
python - 如何检查数字是否为 np.float64 或 np.float32 或 np.float16？
除了使用一组 or 语句之外 isinstance( x, np.float64 ) 或 isinstance( x, np.float32 ) 或 isinstance( np.float16 )
python - np.dot 和 np.multiply 与 np.sum 在二进制交叉熵损失计算中的区别
我尝试了以下代码，但没有发现 np.dot 和 np.multiply 与 np.sum 之间的区别这里是 np.dot 代码 logprobs = np.dot(Y, (np.log(A2)).T
python - 哪个更快 np.vstack、np.append、np.concatenate 或在 cython 中制作的手动函数？
我编写了一些程序来更新 numpy在每次迭代中列出并对其进行一些操作。迭代次数取决于时间。例如在 1 秒内，可能有 1000 到 2500 次迭代。这意味着 numpy 列表中的项目对于运行程序 1
python - 进行 Pandas 比较时，如何从 np.nan>np.nan 返回 np.nan？
我有以下两个数据框: a = pd.DataFrame([[1,2, 3],[4,3,6], [np.nan, 2, np.nan]]) 0 1 2 0 1.0 2 3.0 1
python - np.any(np.not_equal(arr, 0), axis=0) 与 np.count_nonzero(arr)
我有一个包含很多非零值的数组。当我使用以下方法计算非零项目总数时，我得到了 2 个不同的结果: 1) non_zero_weights = np.any(np.not_equal(lr_l1.coef
python - cython 中 np.int、np.int_、int 和 np.int_t 之间的区别？
我对这么多int有点挣扎cython 中的数据类型。 np.int, np.int_, np.int_t, int 我猜 int在纯python中相当于np.int_ , 那么 np.int 在哪里来
python - np.full(size, 0) vs. np.zeros(size) vs. np.empty()
如果您要选择以下三种初始化零数组的方法之一，您会选择哪一种以及为什么？ my_arr_1 = np.full(size, 0) 或 my_arr_2 = np.zeros(size) 或 my_arr
python - 当 np.nan 设置为默认值时，为什么 np.select 返回 'nan' 作为字符串而不是 np.nan？
我正在使用 np.select 根据应用于其他列的多个条件创建一个新列。这是一个简单的例子: df = pd.DataFrame({'A': [0, 3, 4], 'B': [10, 0, 2]})
python - 当 np.nan 设置为默认值时，为什么 np.select 返回 'nan' 作为字符串而不是 np.nan？
我正在使用 np.select 根据应用于其他列的多个条件创建一个新列。这是一个简单的例子: df = pd.DataFrame({'A': [0, 3, 4], 'B': [10, 0, 2]})
python - np.matrix(np.array([0,0])) 和 np.matrix([0,0]) 有区别吗？
我正在读这个code ，用于从头开始实现线性回归: # convert from data frames to numpy matrices X = np.matrix(X.values) y = n
python - 使用 struct.unpack VS np.frombuffer VS np.ndarray VS np.fromfile 解压二进制文件
我正在解压缩具有许多不同数据类型的大型二进制文件 (~1GB)。我正处于创建循环以隐藏每个字节的早期阶段。我一直在使用 struct.unpack，但最近认为如果我使用 numpy 它会运行得更快。然
nlp - 从斯坦福依赖分析树中提取 NP-VP-NP
我需要从依存分析树中提取形式为 NP-VP-NP 的三元组，作为 Stanford Parser 中词汇化分析的输出。执行此操作的最佳方法是什么。例如如果解析树如下: (ROOT (S

qq735679552

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城