gpt4 book ai didi

python - 如何删除数据集中的重复值 : python

转载 作者:太空宇宙 更新时间:2023-11-04 10:10:29 34 4
gpt4 key购买 nike

我想通过保留具有最高值(value)的项目来删除数据集中的重复项目。现在我正在使用 Pandas :

c_maxes = hospProfiling.groupby(['Hospital_ID', 'District_ID'], group_keys=False)\
.apply(lambda x: x.ix[x['Hospital_employees'].idxmax()])
print c_maxes

c_maxes.to_csv('data/external/HospitalProfilingMaxes.csv')

这样做会导致初始数据集:Hospital_ID,District_ID,Hospital_employees 变为 Hospital_ID,District_ID,Hospital_ID,District_ID,Hospital_employees

用于分组的列是重复的。这里有什么错误?

编辑:

在使用 groupby() 函数时,会在数据的开头添加一个额外的列。该列没有名称,它只是所有行的序号。这显示在此处问题的输出第二个答案中。我想删除这个额外的列,因为我不需要它。我试过这个:

hospProfiling.drop(hospProfiling.columns[0], axis=1)

此代码不会删除该列。如何删除?

最佳答案

为什么不使用 groupby max 方法?

hopsProfiling.groupby(['Hospital_ID','District_ID'],as_index = False).max()

如果您碰巧有超过三列,请将 max 替换为 agg:

hopsProfiling.groupby(['Hospital_ID','District_ID'],as_index = False).agg({'Hospital employees': max})

关于python - 如何删除数据集中的重复值 : python,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38657741/

34 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com