python - pandas:当数据为NaN时，无法进行逻辑运算-6ren

python - pandas:当数据为NaN时，无法进行逻辑运算

转载作者：太空宇宙更新时间：2023-11-03 16:57:46

27

4

我在 Pandas 中有一个很大的 DataFrame，并且 2 列可以有值，或者在未分配给任何值时为 NaN(空)。

我想根据这 2 列填充第三列。当不是 NaN 时，它需要一些值。其工作原理如下:

In [16]: import pandas as pd

In [17]: import numpy as np

In [18]: df = pd.DataFrame([[np.NaN, np.NaN],['John', 'Malone'],[np.NaN, np.NaN]], columns = ['col1', 'col2'])

In [19]: df
Out[19]:
   col1    col2
0   NaN     NaN
1  John  Malone
2   NaN     NaN

In [20]: df['col3'] = np.NaN

In [21]: df.loc[df['col1'].notnull(),'col3'] = 'I am ' + df['col1']

In [22]: df
Out[22]:
   col1    col2       col3
0   NaN     NaN        NaN
1  John  Malone  I am John
2   NaN     NaN        NaN

这也有效:

In [29]: df.loc[df['col1']== 'John','col3'] = 'I am ' + df['col2']

In [30]: df
Out[30]:
   col1    col2         col3
0   NaN     NaN          NaN
1  John  Malone  I am Malone
2   NaN     NaN          NaN

但是，如果我没有将所有值设置为 NaN，然后尝试最后一个 loc，则会出现错误!

In [31]: df = pd.DataFrame([[np.NaN, np.NaN],[np.NaN, np.NaN],[np.NaN, np.NaN]], columns = ['col1', 'col2'])

In [32]: df
Out[32]:
   col1  col2
0   NaN   NaN
1   NaN   NaN
2   NaN   NaN

In [33]: df['col3'] = np.NaN

In [34]: df.loc[df['col1']== 'John','col3'] = 'I am ' + df['col2']
---------------------------------------------------------------------------
TypeError                                 Traceback (most recent call last)
c:\python33\lib\site-packages\pandas\core\ops.py in na_op(x, y)
    552             result = expressions.evaluate(op, str_rep, x, y,
--> 553                                           raise_on_error=True, **eval_kwargs)
    554         except TypeError:

c:\python33\lib\site-packages\pandas\computation\expressions.py in evaluate(op, op_str, a, b, raise_on_error, use_numexpr, **eval_kwargs)
    217         return _evaluate(op, op_str, a, b, raise_on_error=raise_on_error,
--> 218                          **eval_kwargs)
    219     return _evaluate_standard(op, op_str, a, b, raise_on_error=raise_on_error)

c:\python33\lib\site-packages\pandas\computation\expressions.py in _evaluate_standard(op, op_str, a, b, raise_on_error, **eval_kwargs)
     70         _store_test_result(False)
---> 71     return op(a, b)
     72

c:\python33\lib\site-packages\pandas\core\ops.py in _radd_compat(left, right)
    805     try:
--> 806         output = radd(left, right)
    807     except TypeError:

c:\python33\lib\site-packages\pandas\core\ops.py in <lambda>(x, y)
    802 def _radd_compat(left, right):
--> 803     radd = lambda x, y: y + x
    804     # GH #353, NumPy 1.5.1 workaround

TypeError: ufunc 'add' did not contain a loop with signature matching types dtype('<U32') dtype('<U32') dtype('<U32')

During handling of the above exception, another exception occurred:

TypeError                                 Traceback (most recent call last)
<ipython-input-34-3b2873f8749b> in <module>()
----> 1 df.loc[df['col1']== 'John','col3'] = 'I am ' + df['col2']

c:\python33\lib\site-packages\pandas\core\ops.py in wrapper(left, right, name, na_op)
    616                 lvalues = lvalues.values
    617
--> 618             return left._constructor(wrap_results(na_op(lvalues, rvalues)),
    619                                      index=left.index, name=left.name,
    620                                      dtype=dtype)

c:\python33\lib\site-packages\pandas\core\ops.py in na_op(x, y)
    561                 result = np.empty(len(x), dtype=x.dtype)
    562                 mask = notnull(x)
--> 563                 result[mask] = op(x[mask], y)
    564             else:
    565                 raise TypeError("{typ} cannot perform the operation {op}".format(typ=type(x).__name__,op=str_rep))

c:\python33\lib\site-packages\pandas\core\ops.py in _radd_compat(left, right)
    804     # GH #353, NumPy 1.5.1 workaround
    805     try:
--> 806         output = radd(left, right)
    807     except TypeError:
    808         raise

c:\python33\lib\site-packages\pandas\core\ops.py in <lambda>(x, y)
    801
    802 def _radd_compat(left, right):
--> 803     radd = lambda x, y: y + x
    804     # GH #353, NumPy 1.5.1 workaround
    805     try:

TypeError: ufunc 'add' did not contain a loop with signature matching types dtype('<U32') dtype('<U32') dtype('<U32')

这就好像 Pandas 不喜欢 Column value == some text 如果所有值都是 NaN？？？

救命!

最佳答案

我认为，实际上这行代码所做的就是将一个字符串添加到第 1 列值(如果有任何值不为空)。

df.loc[df['col1'].notnull(),'col3'] = 'I am ' + df['col1']

所以你可以只检查是否有任何不为空的值，然后仅在有时执行操作:

if df['col1'].notnull().any():
    df['col3'] = 'I am ' + df['col1']

在以这种方式运行之前，您也不需要创建 col3 列。

关于python - pandas:当数据为NaN时，无法进行逻辑运算，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/35278265/

27

4

0

文章推荐： ruby - Ruby 1.8.7 中的 NoMethodError

文章推荐： c# - ASP.NET 中的 Crystal Report 问题 - ExportToHttpResponse

文章推荐： c# - COMException 故障

pandas - Pandas 交叉表与 Pandas 数据透视表有何不同？
pandas.crosstab 和 Pandas 数据透视表似乎都提供了完全相同的功能。有什么不同吗？最佳答案 pivot_table没有 normalize争论，不幸的是。在 crosstab
pandas - 从 pandas 值序列创建 pandas 区间序列
我能找到的最接近的答案似乎太复杂:How I can create an interval column in pandas? 如果我有一个如下所示的 pandas 数据框: +-------+ |
pandas - 将一列值移动到另一列 - Pandas
这是我用来将某一行的一列值移动到同一行的另一列的当前代码: #Move 2014/15 column ValB to column ValA df.loc[(df.Survey_year == 201
pandas - 如何将包含 bins 的 pandas 数据框写入文件以便将其读回 pandas？
我有一个以下格式的 Pandas 数据框: df = pd.DataFrame({'a' : [0,1,2,3,4,5,6], 'b' : [-0.5, 0.0, 1.0, 1.2, 1.4,
pandas - Pandas 数据框行上的克罗内克积
所以我有这两个数据框，我想得到一个新的数据框，它由两个数据框的行的克罗内克积组成。正确的做法是什么？举个例子:数据框1 c1 c2 0 10 100 1 11 110 2 12
pandas - Pandas 条形图中的刻度标签重叠
TL;DR:在 pandas 中，如何绘制条形图以使其 x 轴刻度标签看起来像折线图？我制作了一个间隔均匀的时间序列(每天一个项目)，并且可以像这样很好地绘制它: intensity[350:450
pandas - Pandas 中两个时间戳之间的差异
我有以下两个时间列，“Time1”和“Time2”。我必须计算 Pandas 中的“差异”列，即 (Time2-Time1): Time1 Time2
pandas - ( Pandas )根据顺序无关紧要的子集删除重复项
从这个 df 去的正确方法是什么: >>> df=pd.DataFrame({'a':['jeff','bob','jill'], 'b':['bob','jeff','mike']}) >>> df
pandas - Pandas 中唯一值的累积计数
我想按周从 Pandas 框架中的列中累积计算唯一值。例如，假设我有这样的数据: df = pd.DataFrame({'user_id':[1,1,1,2,2,2],'week':[1,1,2,1,
pandas - Pandas 更改数据透视表中列的顺序
数据透视表的表示形式看起来不像我在寻找的东西，更具体地说，结果行的顺序。我不知道如何以正确的方式进行更改。 df示例: test_df = pd.DataFrame({'name':['name_1
pandas - Pandas 中的分组召回
我有一个数据框，如下所示。 Category Actual Predicted 1 1 1 1 0
pandas - 计算从日期时间列到特定日期的天数 - pandas
我有一个 df，如下所示。 df: ID open_date limit 1 2020-06-03 100 1 2020-06-23 500
pandas - 删除不等于唯一项目值的行 - Pandas
我有一个 df ，其中包含与唯一值关联的各种字符串。对于这些唯一值，我想删除不等于单独列表的行，最后一行除外。下面使用 Label 中的各种字符串值与 Item 相关联.所以对于每个唯一的 Item
pandas - Pandas 按索引删除列会删除所有具有相同名称的列
考虑以下具有相同名称的列的数据框（显然，这确实发生了，目前我有一个像这样的数据集！:(） >>> df = pd.DataFrame({"a":range(10,15),"b":range(5,10)
pandas - Pandas DF中的重复行
我在 Pandas 中有一个 DF，它看起来像: Letters Numbers A 1 A 3 A 2 A 1 B 1 B 2
pandas - Pandas 两列之间的时差
如何减去两列之间的时间并将其转换为分钟 Date Time Ordered Time Delivered 0 1/11/19 9:25:00 am 10:58:00 am
pandas - pandas 使用哪种方法计算百分位数？
我试图理解 pandas 中的下/上百分位数计算，但有点困惑。这是它的示例代码和输出。 test = pd.Series([7, 15, 36, 39, 40, 41]) test.describe(
pandas - 如何提取多索引数据帧的索引名称，pandas
我有一个多索引数据框，如下所示: TQ bought HT Detailed Instru
pandas - Pandas :根据字符串计数创建直方图
我需要从包含值“低”，“中”或“高”的数据框列创建直方图。当我尝试执行通常的df.column.hist（）时，出现以下错误。 ex3.Severity.value_counts() Out[85]:
pandas - Pandas 中的子字符串列基于另一列
我试图根据另一列的长度对一列进行子串，但结果集是 NaN .我究竟做错了什么？ import pandas as pd df = pd.DataFrame([['abcdefghi','xyz'],

首页

博学

6Ren·AI

商城

python - pandas:当数据为NaN时，无法进行逻辑运算