gpt4 book ai didi

python - 识别重复项并选择要删除的重复行

转载 作者:太空宇宙 更新时间:2023-11-03 21:37:56 25 4
gpt4 key购买 nike

我需要帮助来清理我的数据集。在一组唯一 ID 中,存在重复的标题/艺术家名称,并且在这些重复项中,有一行不包含专辑列的任何值/文本。

我首先要做的是识别混合 ID 子集中的重复项,然后删除“专辑”列中没有任何值/文本的行。

我无法理解这个问题,任何帮助都会很棒!

DF:

enter image description here

输出: enter image description here

最佳答案

以下是我将采取的方法:

import pandas as pd

# Partial dataframe
df = pd.DataFrame({'Mix_id':[1234567, 1234567, 1234567, 1234567, 1234567],
'Title':['Hello its me', 'Music', 'Evolve', 'Evolve', 'Signs'],
'Artist':['Martin', 'Ones and Twos', 'Julian', 'Julian', 'Julian'],
'Album':["", "", "", "Evolve", ""]})

初始数据框:

enter image description here

df = df.groupby(['Mix_id', 'Title', 'Artist'], as_index=False).apply(lambda x : x[x.Album.str.len() == x.Album.str.len().max()])
df.reset_index(level=0, drop=True, inplace=True)
df.sort_index()

输出:

enter image description here

关于python - 识别重复项并选择要删除的重复行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53127277/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com