gpt4 book ai didi

python - 如何根据 Pandas 数据框中的两个或多个子集标准删除重复项

转载 作者:行者123 更新时间:2023-11-28 21:04:16 24 4
gpt4 key购买 nike

假设这是我的数据框

df = pd.DataFrame({ 'bio' : ['1', '1', '1', '4'],
'center' : ['one', 'one', 'two', 'three'],
'outcome' : ['f','t','f','f'] })

看起来像这样......

  bio center outcome
0 1 one f
1 1 one t
2 1 two f
3 4 three f

我想删除第 1 行,因为它与第 0 行具有相同的简介和中心。我想保留第 2 行,因为它与第 0 行具有相同的生物但中心不同。

基于 drop_duplicates 输入结构,这样的事情不会起作用,但这是我正在尝试做的

df.drop_duplicates(subset = 'bio' & subset = 'center' )

有什么建议吗?

编辑:稍微更改了 df 以适应正确答案的示例

最佳答案

你的语法错误。正确的方法是:

df.drop_duplicates(subset=['bio', 'center', 'outcome'])

或者在这种特定情况下,只需简单地:

df.drop_duplicates()

两者都返回以下内容:

  bio center outcome
0 1 one f
2 1 two f
3 4 three f

看看 df.drop_duplicates documentation有关语法详细信息。 subset 应该是列标签的序列。

关于python - 如何根据 Pandas 数据框中的两个或多个子集标准删除重复项,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45497835/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com