我有一个正常的df
A = pd.DataFrame([[1, 5, 2], [2, 4, 4], [3, 3, 1], [4, 2, 2], [5, 1, 4]],
columns=['A', 'B', 'C'], index=[1, 2, 3, 4, 5])
如果我想根据另一列中的条件创建一个列,我会执行类似的操作,并且会按预期工作。
In [5]: A['D'] = A['C'] > 2
In [6]: A
Out[6]:
A B C D
1 1 5 2 False
2 2 4 4 True
3 3 3 1 False
4 4 2 2 False
5 5 1 4 True
但是,如果我想使用 2 个条件来做同样的事情......比如:
A['D'] = A['C'] > 2 and A['B'] > 2 or A['D'] = A['C'] > 2 & A['B'] > 2
我得到了臭名昭著的
ValueError: The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all().
如何在不迭代的情况下求解?基于两个条件创建此新列的目的是能够使用以下类型的 groupby 函数:
A.groupby('D').apply(custom_fuction)
所以,也许有一种方法可以使用 groupby 来完成整个事情,但我不知道该怎么做。
谢谢
使用&
,而不是and
,来执行元素逻辑与操作:
In [40]: A['D'] = (A['C'] > 2) & (A['B'] > 2)
In [41]: A
Out[41]:
A B C D
1 1 5 2 False
2 2 4 4 True
3 3 3 1 False
4 4 2 2 False
5 5 1 4 False
您也可以跳过定义 D
列:
In [42]: A.groupby((A['C'] > 2) & (A['B'] > 2))
Out[42]: <pandas.core.groupby.DataFrameGroupBy object at 0xab5b6ac>
我是一名优秀的程序员,十分优秀!