- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
这是一个有点宽泛的话题,但我将尝试将其缩减为一些具体问题。
在开始回答关于 SO 的问题时,我发现自己在制作玩具数据时有时会遇到这样的愚蠢错误:
In[0]:
import pandas as pd
df = pd.DataFrame({"values":[1,2,3,4,5,6,7,8,9]})
df[df < 5] = np.nan
Out[0]:
NameError: name 'np' is not defined
我已经习惯了自动导入
numpy
与
pandas
这通常不会发生在实际代码中。然而,这确实让我想知道为什么
pandas
没有自己的值/对象来表示空值。
None
而不是类似的情况:
import pandas as pd
df = pd.DataFrame({"values":[1,2,3,4,5,6,7,8,9]})
df[df < 5] = None
哪个按预期工作并且不会产生错误。但我觉得我看到的关于 SO 的约定是使用
np.nan
,人们通常指的是
np.nan
在讨论空值时(这也许是我没有意识到
None
可以使用的原因,但也许那是我自己的特质)。
pandas
有一个
pandas.NA
自 1.0.0 以来的值(value),但我从未见过有人在帖子中使用它:
In[0]:
import pandas as pd
import numpy as np
df = pd.DataFrame({'values':np.random.rand(20,)})
df['above'] = df['values']
df['below'] = df['values']
df['above'][df['values']>0.7] = np.nan
df['below'][df['values']<0.3] = pd.NA
df['names'] = ['a','b','c','a','b','c','a','b','c','a']*2
df.loc[df['names']=='a','names'] = pd.NA
df.loc[df['names']=='b','names'] = np.nan
df.loc[df['names']=='c','names'] = None
df
Out[0]:
values above below names
0 0.323531 0.323531 0.323531 <NA>
1 0.690383 0.690383 0.690383 NaN
2 0.692371 0.692371 0.692371 None
3 0.259712 0.259712 NaN <NA>
4 0.473505 0.473505 0.473505 NaN
5 0.907751 NaN 0.907751 None
6 0.642596 0.642596 0.642596 <NA>
7 0.229420 0.229420 NaN NaN
8 0.576324 0.576324 0.576324 None
9 0.823715 NaN 0.823715 <NA>
10 0.210176 0.210176 NaN <NA>
11 0.629563 0.629563 0.629563 NaN
12 0.481969 0.481969 0.481969 None
13 0.400318 0.400318 0.400318 <NA>
14 0.582735 0.582735 0.582735 NaN
15 0.743162 NaN 0.743162 None
16 0.134903 0.134903 NaN <NA>
17 0.386366 0.386366 0.386366 NaN
18 0.313160 0.313160 0.313160 None
19 0.695956 0.695956 0.695956 <NA>
因此,对于数值而言,这些不同的空值之间的区别似乎并不重要,但它们对于字符串的表示方式不同(也许对于其他数据类型?)。
np.nan
(而不是 None
)来表示 pandas
中的空值? pandas
在其生命周期的大部分时间里(直到去年)都没有自己的空值?添加的动机是什么? Series
中包含多种类型的缺失值或列,它们之间有什么区别吗?为什么它们的表示方式不同(与数字数据一样)? pandas
之间的区别。和
numpy
,所以请纠正我。
最佳答案
一个主dependency of pandas
is numpy
,换句话说,pandas 是建立在 numpy 之上的。因为 pandas 继承并使用了许多 numpy 方法,所以保持一致是有意义的,也就是说,缺失的数字数据用 np.NaN
表示。 .
(这种基于 numpy 构建的选择也会对其他事物产生影响。例如,date and time operations 是基于 np.timedelta64
和 np.datetime64
dtypes,而不是标准的 datetime
模块。)
你可能不知道的一件事是 numpy
一直都在pandas
import pandas as pd
pd.np?
pd.np.nan
尽管您可能认为这种行为可能会更好,因为您不导入 numpy,但不鼓励这样做,并且在不久的将来会弃用,以支持直接导入
numpy
。
FutureWarning: The pandas.np module is deprecated and will be removedfrom pandas in a future version. Import numpy directly instead
np.nan
(而不是 None
)来表示 Pandas 中的空值?
np.NaN
.
None
要求数据类型为
Object
对于 pandas,您希望将数字数据存储在数字 dtype 中。
pandas
通常会在创建或导入时强制转换为正确的 null 类型,以便它可以使用正确的
dtype
pd.Series([1, None])
#0 1.0
#1 NaN <- None became NaN so it can have dtype: float64
#dtype: float64
pandas
没有它自己的空值,因为它通过
np.NaN
,这适用于大多数情况。但是对于
pandas
缺少数据是很常见的,
entire section of the documentation致力于此。
NaN
,作为浮点数,不适合整数容器,这意味着任何缺少数据的数字系列都将向上转换为
float
.这个可以
become problematic because of floating point math ,并且某些整数不能用浮点数完美表示。因此,任何连接或
merges
可能会失败。
# Gets upcast to float
pd.Series([1,2,np.NaN])
#0 1.0
#1 2.0
#2 NaN
#dtype: float64
# Can safely do merges/joins/math because things are still Int
pd.Series([1,2,np.NaN]).astype('Int64')
#0 1
#1 2
#2 <NA>
#dtype: Int64
关于python - 为什么 pandas 使用 numpy 中的 "NaN",而不是自己的 null 值?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/62489359/
最近开始学习oracle和sql。 在学习的过程中,我遇到了几个问题,我的 friend 在接受采访时被问到这些问题。 SELECT * FROM Employees WHERE NULL IS N
这个问题在这里已经有了答案: Can we subtract NULL pointers? (4 个回答) 关闭 2 个月前。 是否定义了NULL - NULL? (char *)NULL - (ch
是否有推荐的方法(根据 .net Framework 指南)检查 null,例如: if (value == null) {//code1} else {//code2} 或 if (value !=
我正在尝试将值插入数据库,但出现这样的错误任何人都可以告诉我为什么该值为空,如下所示: An exception occurred while executing 'INSERT INTO perso
这个问题在这里已经有了答案: String concatenation with a null seems to nullify the entire string - is that desire
您好,我正在 Android 联系人搜索模块中工作。我正在查询下方运行。 cur = context.getContentResolver().query(ContactsContract.Data.
下面的 SQL 表定义说明了从我的 MYSQL 数据库创建表的语句之一,该数据库是由我公司的前开发人员开发的。 DROP TABLE IF EXISTS `classifieds`.`category
我主要有应用程序开发背景。在编程语言中 variable == null或 variable != null有效。 当涉及到 SQL 时,以下查询不会给出任何语法错误,但也不会返回正确的结果。 sel
我在尝试检查某些元素是否为 NULL 时遇到段错误或不。任何人都可以帮忙吗? void addEdge(int i, int j) { if (i >= 0 && j > 0)
在 SQL 服务器中考虑到以下事实:Col1 和 Col2 包含数值和 NULL 值 SELECT COALESCE(Col1,Col2) 返回一个错误:“COALESCE 的至少一个参数必须是一个不
在 SQL 服务器中考虑到以下事实:Col1 和 Col2 包含数值和 NULL 值 SELECT COALESCE(Col1,Col2) 返回一个错误:“COALESCE 的至少一个参数必须是一个不
下面查询的关系代数表达式是什么?我找不到“Is Null”的表达式。 SELECT reader.name FROM reader LEFT JOIN book_borrow ON reader.ca
我正在尝试使用三元运算符来检查值是否为 null 并返回一个表达式或另一个。将此合并到 LINQ 表达式时,我遇到的是 LINQ 表达式的 Transact-SQL 转换试图执行“column = n
我在给定的代码中看到了以下行: select(0, (fd_set *) NULL, (fd_set *) NULL, (fd_set *) NULL, &timeout); http://linux
var re = /null/g; re.test('null null'); //> true re.test('null null'); //> true re.test('null null')
这个问题在这里已经有了答案: 关闭 13 年前。 我今天避开了一场关于数据库中空值的激烈辩论。 我的观点是 null 是未指定值的极好指示符。团队中有意见的其他每个人都认为零和空字符串是可行的方法。
由于此错误,我无法在模拟器中运行我的应用: Error:null value in entry: streamOutputFolder=null 或 gradle - Error:null value
我正在尝试在 Android 应用程序中创建电影数据库,但它返回错误。知道这意味着什么吗? public Cursor returnData() { return db.query(TABLE
我一直在检查浏览器中的日期函数以及运行时间 new Date (null, null, null); 在开发工具控制台中,它给出了有效的日期 Chrome v 61 回归 Sun Dec 31 189
为什么 NA==NULL 会导致 logical (0) 而不是 FALSE? 为什么 NULL==NULL 会导致 logical(0) 而不是 TRUE? 最佳答案 NULL 是一个“零长度”对象
我是一名优秀的程序员,十分优秀!