gpt4 book ai didi

python - 根据标签的多数计数过滤数据框中的重叠行

转载 作者:太空宇宙 更新时间:2023-11-04 04:55:43 29 4
gpt4 key购买 nike

如何过滤标签重叠的重复行?我需要 Dataframe 的一个子集,其中重复的行被替换为标签计数最大的一行。

考虑一个数据框df:

df = pd.DataFrame({
'X' : [1, -1, 1, 1, 3, -2, -1, -1],
'Y' : [2, 3, 2, 2, 2, -1, 3, 3],
'label' : [0, 1, 1, 0, 2, 1, 2, 2]
})

过滤后,期望得到如下子集df_output

df_output = pd.DataFrame({
'X' : [1, -1, 3, -2],
'Y' : [2, 3, 2, -1],
'label' : [0, 2, 2, 1]
})

最佳答案

我认为您正在寻找 groupby 模式,即

df.groupby(['X','Y'])['label'].apply(lambda x : x.mode().values[0]).reset_index()

输出:

  X  Y  label0 -2 -1      11 -1  3      22  1  2      03  3  2      2

关于python - 根据标签的多数计数过滤数据框中的重叠行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47121675/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com