gpt4 book ai didi

python - 如何在不转换为 pd.DataFrame 的情况下在具有 np.nan 值的矩阵上计算 np.cov?

转载 作者:太空狗 更新时间:2023-10-30 02:52:14 25 4
gpt4 key购买 nike

我有以下 np.array:

my_matrix = np.array([[1,np.nan,3], [np.nan,1,2], [np.nan,1,2]])
array([[ 1., nan,  3.],
[nan, 1., 2.],
[nan, 1., 2.]])

如果我对其评估 np.cov,我得到:

np.cov(my_matrix)
array([[nan, nan, nan],
[nan, nan, nan],
[nan, nan, nan]])

但如果我用 pd.DataFrame.cov 计算它,我会得到不同的结果:

pd.DataFrame(my_matrix).cov()
    0   1   2
0 NaN NaN NaN
1 NaN 0.0 0.000000
2 NaN 0.0 0.333333

我知道根据 pandas文档中,它们处理 nan 值。

我的问题是,如何使用 numpy 获得相同(或相似的结果)?或者在使用 numpy 计算协方差时如何处理丢失的数据?

最佳答案

您可以使用 Numpy 的 masked arrays .

import numpy.ma as ma
cv = ma.cov(ma.masked_invalid(my_matrix), rowvar=False)
cv
masked_array(
data=[[--, --, --],
[--, 0.0, 0.0],
[--, 0.0, 0.33333333333333337]],
mask=[[ True, True, True],
[ True, False, False],
[ True, False, False]],
fill_value=1e+20)

要生成填充了 nan 值的 ndarray,请使用 filled 方法。

cv.filled(np.nan)
array([[       nan,        nan,        nan],
[ nan, 0. , 0. ],
[ nan, 0. , 0.33333333]])

请注意,np.cov 默认生成成对的行协方差。要复制 Pandas 行为(成对列协方差),您必须将 rowvar=False 传递给 ma.cov

关于python - 如何在不转换为 pd.DataFrame 的情况下在具有 np.nan 值的矩阵上计算 np.cov?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53750371/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com