gpt4 book ai didi

python - 如何拆分数据框单元格中的数据并在拆分时执行 Pandas groupby?

转载 作者:太空宇宙 更新时间:2023-11-04 09:26:33 26 4
gpt4 key购买 nike

我使用 FourSquare API 生成了一些数据,其中列出了东伦敦不同地区附近的公园。它在数据框中,df。

Location,Parks,Borough
Aldborough Hatch,Fairlop Waters Country Park,Redbridge
Ardleigh Green,Haynes Park,Havering
Bethnal Green,"Haggerston Park, Weavers Fields",Tower Hamlets
Bromley-by-Bow,"Rounton Park, Grove Hall Park",Tower Hamlets
Cambridge Heath,"Haggerston Park, London Fields",Tower Hamlets
Dalston,"Haggerston Park, London Fields",Hackney

使用df = pd.read_clipboard(sep=',')导入数据

我想做的是按自治市镇列分组并计算该自治市镇中不同的公园,例如“Tower Hamlets”= 5 和“Hackney”= 2。我将为此创建一个新的数据框简单地列出数据框中每个行政区的公园总数。

我知道我能做到:

df.groupby(['Borough', 'Parks']).size()

但我需要用分隔符“,”分割公园,以便将它们视为一个自治市镇的独特、不同的实体。

你有什么建议?

谢谢!

最佳答案

数据科学的第一条规则是将数据清理成有用的格式。

重新格式化 DataFrame 使其可用:

df.Parks = df.Parks.str.split(',\s*') # per user piRSquared
df = df.explode('Parks') # pandas v 0.25

cleaned DataFrame

现在 DataFrame 的格式正确,可以更轻松地进行分析

df.groupby('Borough').Parks.nunique()

Borough
Hackney 2
Havering 1
Redbridge 1
Tower Hamlets 5
  • 那是三行代码,但现在 DataFrame 是一种有用的格式,可以轻松提取更多见解。

情节

df.groupby(['Borough']).Parks.nunique().plot(kind='bar', title='Unique Parks Counts by Borough')

enter image description here

关于python - 如何拆分数据框单元格中的数据并在拆分时执行 Pandas groupby?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57363046/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com