gpt4 book ai didi

python - 为什么 pandas 使用 numpy 中的 "NaN",而不是自己的 null 值?

转载 作者:行者123 更新时间:2023-12-03 21:13:05 26 4
gpt4 key购买 nike

这是一个有点宽泛的话题,但我将尝试将其缩减为一些具体问题。
在开始回答关于 SO 的问题时,我发现自己在制作玩具数据时有时会遇到这样的愚蠢错误:

In[0]:

import pandas as pd

df = pd.DataFrame({"values":[1,2,3,4,5,6,7,8,9]})
df[df < 5] = np.nan

Out[0]:
NameError: name 'np' is not defined
我已经习惯了自动导入 numpypandas这通常不会发生在实际代码中。然而,这确实让我想知道为什么 pandas没有自己的值/对象来表示空值。
我最近才意识到你可以只使用 Python None而不是类似的情况:
import pandas as pd

df = pd.DataFrame({"values":[1,2,3,4,5,6,7,8,9]})
df[df < 5] = None
哪个按预期工作并且不会产生错误。但我觉得我看到的关于 SO 的约定是使用 np.nan ,人们通常指的是 np.nan在讨论空值时(这也许是我没有意识到 None 可以使用的原因,但也许那是我自己的特质)。
简要研究一下,我现在看到 pandas 有一个 pandas.NA自 1.0.0 以来的值(value),但我从未见过有人在帖子中使用它:
In[0]:

import pandas as pd
import numpy as np

df = pd.DataFrame({'values':np.random.rand(20,)})
df['above'] = df['values']
df['below'] = df['values']
df['above'][df['values']>0.7] = np.nan
df['below'][df['values']<0.3] = pd.NA

df['names'] = ['a','b','c','a','b','c','a','b','c','a']*2
df.loc[df['names']=='a','names'] = pd.NA
df.loc[df['names']=='b','names'] = np.nan
df.loc[df['names']=='c','names'] = None
df

Out[0]:
values above below names
0 0.323531 0.323531 0.323531 <NA>
1 0.690383 0.690383 0.690383 NaN
2 0.692371 0.692371 0.692371 None
3 0.259712 0.259712 NaN <NA>
4 0.473505 0.473505 0.473505 NaN
5 0.907751 NaN 0.907751 None
6 0.642596 0.642596 0.642596 <NA>
7 0.229420 0.229420 NaN NaN
8 0.576324 0.576324 0.576324 None
9 0.823715 NaN 0.823715 <NA>
10 0.210176 0.210176 NaN <NA>
11 0.629563 0.629563 0.629563 NaN
12 0.481969 0.481969 0.481969 None
13 0.400318 0.400318 0.400318 <NA>
14 0.582735 0.582735 0.582735 NaN
15 0.743162 NaN 0.743162 None
16 0.134903 0.134903 NaN <NA>
17 0.386366 0.386366 0.386366 NaN
18 0.313160 0.313160 0.313160 None
19 0.695956 0.695956 0.695956 <NA>
因此,对于数值而言,这些不同的空值之间的区别似乎并不重要,但它们对于字符串的表示方式不同(也许对于其他数据类型?)。
我的问题基于以上 :
  • 是否习惯使用np.nan (而不是 None )来表示 pandas 中的空值?
  • 为什么pandas在其生命周期的大部分时间里(直到去年)都没有自己的空值?添加的动机是什么?
  • 如果您可以在一个 Series 中包含多种类型的缺失值或列,它们之间有什么区别吗?为什么它们的表示方式不同(与数字数据一样)?

  • 我完全预料到我可能对事物的解释有缺陷,以及 pandas 之间的区别。和 numpy ,所以请纠正我。

    最佳答案

    一个主dependency of pandas is numpy ,换句话说,pandas 是建立在 numpy 之上的。因为 pandas 继承并使用了许多 numpy 方法,所以保持一致是有意义的,也就是说,缺失的数字数据用 np.NaN 表示。 .
    (这种基于 n​​umpy 构建的选择也会对其他事物产生影响。例如,date and time operations 是基于 np.timedelta64np.datetime64 dtypes,而不是标准的 datetime 模块。)

    你可能不知道的一件事是 numpy一直都在pandas

    import pandas as pd
    pd.np?
    pd.np.nan
    尽管您可能认为这种行为可能会更好,因为您不导入 numpy,但不鼓励这样做,并且在不久的将来会弃用,以支持直接导入 numpy

    FutureWarning: The pandas.np module is deprecated and will be removedfrom pandas in a future version. Import numpy directly instead



    是否习惯使用np.nan (而不是 None )来表示 Pandas 中的空值?
    如果数据是数字,那么是的,您应该使用 np.NaN . None要求数据类型为 Object对于 pandas,您希望将数字数据存储在数字 dtype 中。 pandas通常会在创建或导入时强制转换为正确的 null 类型,以便它可以使用正确的 dtype
    pd.Series([1, None])
    #0 1.0
    #1 NaN <- None became NaN so it can have dtype: float64
    #dtype: float64

    为什么 pandas 在其生命周期的大部分时间里(直到去年)都没有自己的 null 值?添加的动机是什么? pandas没有它自己的空值,因为它通过 np.NaN ,这适用于大多数情况。但是对于 pandas缺少数据是很常见的, entire section of the documentation致力于此。 NaN ,作为浮点数,不适合整数容器,这意味着任何缺少数据的数字系列都将向上转换为 float .这个可以 become problematic because of floating point math ,并且某些整数不能用浮点数完美表示。因此,任何连接或 merges可能会失败。
    # Gets upcast to float
    pd.Series([1,2,np.NaN])
    #0 1.0
    #1 2.0
    #2 NaN
    #dtype: float64

    # Can safely do merges/joins/math because things are still Int
    pd.Series([1,2,np.NaN]).astype('Int64')
    #0 1
    #1 2
    #2 <NA>
    #dtype: Int64

    关于python - 为什么 pandas 使用 numpy 中的 "NaN",而不是自己的 null 值?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/62489359/

    26 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com