gpt4 book ai didi

python - 我们如何检测 pandas 数据帧中的不一致?

转载 作者:行者123 更新时间:2023-12-02 02:51:26 24 4
gpt4 key购买 nike

我有以下数据框,我想检测其结果是否不一致:

>>> import pandas as pd
>>> import numpy as np
>>> df = pd.DataFrame(np.array([[1, 2, 3, 1], [4, 5, 6, 0], [7, 8, 9, 0], [4, 5, 6, 1], [1, 2, 3, 1]]),
... columns=['a', 'b', 'c', 'result'])
>>> df
a b c result
0 1 2 3 1
1 4 5 6 0
2 7 8 9 0
3 4 5 6 1
4 1 2 3 1

我的目标是删除那些对相同值显示不同结果的行(应删除 id 1 和 3)。我知道我可以检测重复项并循环结果

>>> df[df.duplicated(['a', 'b', 'c'], keep=False)]
a b c result
0 1 2 3 1
1 4 5 6 0
3 4 5 6 1
4 1 2 3 1

但我想知道是否有一种更Pythonic的方式来获取(和删除)这些索引。

最佳答案

我将计算每个唯一的 a、b、c 值集的唯一值的数量:

to_keep = df[df.groupby(['a', 'b', 'c'])['result'].transform('nunique') == 1]

它给出:

   a  b  c  result
0 1 2 3 1
2 7 8 9 0
4 1 2 3 1

关于python - 我们如何检测 pandas 数据帧中的不一致?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/61909261/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com