gpt4 book ai didi

python-3.x - 在 Python 中对重复行进行子集化

转载 作者:行者123 更新时间:2023-12-05 02:19:52 24 4
gpt4 key购买 nike

我有一个如下所示的数据框:

Name    State    Gender    OtherVariables
Sam CO M
Sam CO F
Sam CO M
Jim CO M
Jim WY M

以下代码为我提供了所有重复的名称:(Sam 和 Jim):

def list_duplicates(seq):
seen = set()
seen_add = seen.add
seen_twice = set(x for x in seq if x in seen or seen_add(x))
return list(seen_twice)

dups = list_duplicates(df.name)

但我想要的是:

Name    State    Gender
Sam CO M

我只想要那些具有相同名称、州和性别的行。所以吉姆不应该在那里。每行的“OtherVariables”都不同。

最佳答案

您可以使用 boolean indexing带有由 duplicated 创建的掩码:

df = df[df.duplicated(['Name','State','Gender'])]
print (df)

Name State Gender
2 Sam CO M

关于python-3.x - 在 Python 中对重复行进行子集化,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40874935/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com