gpt4 book ai didi

python - 当所有值都等于多个标准时,删除 Pandas 中的观察结果

转载 作者:太空宇宙 更新时间:2023-11-04 10:06:45 26 4
gpt4 key购买 nike

我有几个数据集,如果列子集中的所有值都等于 0 或 N(取决于列),我需要丢弃观察结果。例如:

df = pd.DataFrame({'one':[0,0,1,2,0], 'two':[0,0,0,0,0], 'three':['N','Y','N','Y','N']})
drop_subset = ['one', 'three']

In [4]: df
Out[4]:
one three two
0 0 N 0
1 0 Y 0
2 1 N 0
3 2 Y 0
4 0 N 0

我只需要查看列 onethree ,然后仅删除第 0 行和第 4 行。如果它只是一个值而不是两个或更多,我会使用这个:

df[~(df[drop_subset] == 0).all(axis=1)]

而且它会工作得很好。但是当我尝试将其扩展时:

df[~(df[drop_subset] == 0 or df[drop_subset] == 'N').all(axis=1)]

我得到了可怕的:

ValueError: The truth value of a DataFrame is ambiguous. Use a.empty, a.bool(),a.item(), a.any() or a.all().

我最初想用 any 处理每个内部条件或 all运算符...除了逻辑不是那样工作的。我不需要知道任何或所有值是否为 0,也不需要单独知道任何或所有值是否为 N。我需要知道所有值是否为 N 或 0。也就是说,我对此无能为力:

In [71]: (df[drop_subset] == 0)
Out[71]:
one three
0 True False
1 True False
2 False False
3 False False
4 True False

也没有同时测试“N”值。虽然在这个小数据框上很明显我可以测试列 one对于 0 和列 three分别为'N',实际上我的drop_subset包括近 100 列,它们在三个不同的数据集中有所不同,并且如果不手动对所有这些进行编码,我不知道哪些列会有 0,哪些列会有 'N'。 我唯一确定的是,如果一个观测值在这个子集中全部为 0 或“N”,那么我需要将其删除。

我的最后一招是将 apply 与 lambda 结合使用,但由于数据量大,速度会非常慢。另外,我觉得在 Panadas 中必须有一种矢量化的方式来表达这种逻辑,而这正是我正在寻找的。

最佳答案

您可以使用 IIUC DataFrame.isin()方法:

In [68]: df[df[drop_subset].isin([0,'N']).all(1)]
Out[68]:
one three two
0 0 N 0
4 0 N 0

In [69]: df[~df[drop_subset].isin([0,'N']).all(1)]
Out[69]:
one three two
1 0 Y 0
2 1 N 0
3 2 Y 0

关于python - 当所有值都等于多个标准时,删除 Pandas 中的观察结果,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40620235/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com