gpt4 book ai didi

Python Pandas Dataframe 填充 NaN 值

转载 作者:太空狗 更新时间:2023-10-30 00:02:42 24 4
gpt4 key购买 nike

我正在尝试使用来自标准正态分布的值填充数据框中的 NaN 值。这是目前我的代码:

 sqlStatement = "select * from sn.clustering_normalized_dataset"
df = psql.frame_query(sqlStatement, cnx)
data=df.pivot("user","phrase","tfw")
dfrand = pd.DataFrame(data=np.random.randn(data.shape[0],data.shape[1]))
data[np.isnan(data)] = dfrand[np.isnan(data)]

旋转数据框“数据”后,它看起来像这样:

phrase      aaron  abbas  abdul       abe  able  abroad       abu     abuse  \
user
14233664 NaN NaN NaN NaN NaN NaN NaN NaN
52602716 NaN NaN NaN NaN NaN NaN NaN NaN
123456789 NaN NaN NaN NaN NaN NaN NaN NaN
500158258 NaN NaN NaN NaN NaN NaN NaN NaN
517187571 0.4 NaN NaN 0.142857 1 0.4 0.181818 NaN

但是,我需要将每个 NaN 值替换为一个新的随机值。因此,我创建了一个仅包含随机值 (dfrand) 的新 df,然后尝试用 dfrand 中对应于 NaN 索引的值交换缺失的数字 (Nan)。好吧 - 不幸的是它不起作用 -虽然表达

 np.isnan(data)

返回一个由 True 和 False 值组成的数据框,表达式

  dfrand[np.isnan(data)]

仅返回 NaN 值,因此整体技巧不起作用。有什么想法吗?

最佳答案

三千列没那么多。你有多少行?您总是可以制作一个相同大小的随机数据框并进行逻辑替换(数据框的大小将决定这是否可行。

如果您知道数据框的大小:

import pandas as pd
import numpy as np

# create random dummy dataframe
dfrand = pd.DataFrame(data=np.random.randn(rows,cols))

# import "real" dataframe
data = pd.read_csv(etc.) # or however you choose to read it in

# replace nans
data[np.isnan(data)] = dfrand[np.isnan(data)]

如果你不知道你的数据帧的大小,只是随机播放

import pandas as pd
import numpy as np



# import "real" dataframe
data = pd.read_csv(etc.) # or however you choose to read it in

# create random dummy dataframe
dfrand = pd.DataFrame(data=np.random.randn(data.shape[0],data.shape[1]))

# replace nans
data[np.isnan(data)] = dfrand[np.isnan(data)]

编辑根据“用户”的最后评论:“dfrand[np.isnan(data)] 仅返回 NaN。”

没错!而这正是你想要的。在我的解决方案中,我有:data[np.isnan(data)] = dfrand[np.isnan(data)]。翻译过来,这意味着:从 dfrand 中获取与“数据”中的 NaN 位置相对应的随机生成值,并将其插入“数据”中,其中“数据”为 NaN。一个例子会有所帮助:

a = pd.DataFrame(data=np.random.randint(0,100,(10,3)))
a[0][5] = np.nan

In [32]: a
Out[33]:
0 1 2
0 2 26 28
1 14 79 82
2 89 32 59
3 65 47 31
4 29 59 15
5 NaN 58 90
6 15 66 60
7 10 19 96
8 90 26 92
9 0 19 23

# define randomly-generated dataframe, much like what you are doing, and replace NaN's
b = pd.DataFrame(data=np.random.randint(0,100,(10,3)))

In [39]: b
Out[39]:
0 1 2
0 92 21 55
1 65 53 89
2 54 98 97
3 48 87 79
4 98 38 62
5 46 16 30
6 95 39 70
7 90 59 9
8 14 85 37
9 48 29 46


a[np.isnan(a)] = b[np.isnan(a)]

In [38]: a
Out[38]:
0 1 2
0 2 26 28
1 14 79 82
2 89 32 59
3 65 47 31
4 29 59 15
5 46 58 90
6 15 66 60
7 10 19 96
8 90 26 92
9 0 19 23

如您所见,所有 NaN 都已替换为基于 的 nan 值索引随机生成的值。

关于Python Pandas Dataframe 填充 NaN 值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27506985/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com