gpt4 book ai didi

python - 删除pandas中重复的汉字

转载 作者:太空狗 更新时间:2023-10-30 02:37:23 25 4
gpt4 key购买 nike

df=pd.DataFrame({'a':['重庆市重庆花园','北京市市教育中心']})

如何删除'a'列中行的重复字符,并将其设为

['重庆市花园','北京市教育中心']

代替

['重庆市重庆花园','北京市市教育中心']

谢谢!

最佳答案

OrderedDict

您可以使用 OrderedDict 删除重复项而不会丢失顺序:

from collections import OrderedDict    
df['a'] = [''.join(OrderedDict.fromkeys(v)) for v in df['a']]
df
a
0 重庆市花园
1 北京市教育中心

在 python-3.6+ 上,你可以只使用标准字典—

df['a'] = [''.join(dict.fromkeys(v)) for v in df['a']]

str.extractall + groupby + drop_duplicates

这是丑陋的选择——

(df.a.str.extractall('(.)')[0]
.groupby(level=0)
.apply(pd.Series.drop_duplicates)
.groupby(level=0)
.agg(''.join)
)

0 重庆市花园
1 北京市教育中心
Name: 0, dtype: object

关于python - 删除pandas中重复的汉字,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50340761/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com