gpt4 book ai didi

python - 如何在 pandas groupby 对象上应用函数并将结果保存回父数据框的新列中?

转载 作者:行者123 更新时间:2023-11-28 18:01:04 25 4
gpt4 key购买 nike

我有一个看起来像这样的 Pandas 数据框:

In [5]: import pandas as pd                                                     

In [6]: df = pd.DataFrame({'X': [0, 123, 342, 353, 467, 345, 789, 543, 3913],
...: 'Y': [0, 12, 23, 41, 23, 45, 23, 53, 23],
...: 'Group': [0, 1, 2, 0, 1, 2, 0, 1, 2]})

In [7]: df
Out[7]:
X Y Group
0 0 0 0
1 123 12 1
2 342 23 2
3 353 41 0
4 467 23 1
5 345 45 2
6 789 23 0
7 543 53 1
8 3913 23 2

这三个组代表测量系列,我想为系列的每个测量计算到前一个元素的欧几里得距离,并在每次测量时将其相加。 (第一次测量距离 = 0)。

我已经阅读了此处关于如何将 groupby 操作的结果重新分配回父数据框的所有论坛主题。但是在我基于组为数据框的每个条目(而不是聚合)计算某些内容的情况下,我找不到任何解决方案。

所以我想知道如何组合这些步骤:

from scipy.spatial.distance import euclidean

# 1. Group data
group = df.groupby('Group')
# 2. Calculate cumulative euclidean distance for each group
group['Distance'] = group.apply(lambda row: euclidean(row['X'], row['Y']).cumsum(), axis=1)
# 3. Assign back to original dataframe

第 1 步非常简单。对于第 2 步,我尝试了很多 df.groupby.applydf.groupby.apply.transform 的组合以及定义我自己的函数(不知道这是否将适合一个衬垫)。但我无法真正让它按照我想要的方式行事。我假设 groupby().transform() 是我想要的,但我无法让它按行运行。

另外,为了将结果重新分配给我的原始数据框而不是仅分配给 groupby 对象,我尝试了 df.joinpd.mergepd.concat 等等,但我现在非常困惑有什么区别 :D。

我想要的输出是:

Out[7]: 
X Y Group Distance Cumulative Distance
0 0 0 0 0 0
1 123 12 1 0 0
2 342 23 2 0 0
3 353 41 0 355.37 355.37
4 467 23 1 344.17 344.17
5 345 45 2 22.20 22.20
6 789 23 0 436.37 791.74
7 543 53 1 81.71 425.88
8 3913 23 2 3568.07 3590.44

我只需要累积距离(再次按组计算)。但我将个人距离列为中间步骤。

最佳答案

使用 groupby applyshift 获取每一行的前一个点,然后使用 bfill 填充第一个点与自身。

之后,用 zip XY 创建新的列。

df.sort_values('Group', inplace=True)
df[['X_shift', 'Y_shift']] = df.groupby('Group')[['X', 'Y']].apply(lambda x: x.shift(1)).bfill()
df['point_1'] = tuple(zip(df.X, df.Y))
df['point_2'] = tuple(zip(df.X_shift, df.Y_shift))

df

X Y Group X_shift Y_shift point_1 point_2
0 0 0 0 0.0 0.0 (0, 0) (0.0, 0.0)
3 353 41 0 0.0 0.0 (353, 41) (0.0, 0.0)
6 789 23 0 353.0 41.0 (789, 23) (353.0, 41.0)
1 123 12 1 123.0 12.0 (123, 12) (123.0, 12.0)
4 467 23 1 123.0 12.0 (467, 23) (123.0, 12.0)
7 543 53 1 467.0 23.0 (543, 53) (467.0, 23.0)
2 342 23 2 342.0 23.0 (342, 23) (342.0, 23.0)
5 345 45 2 342.0 23.0 (345, 45) (342.0, 23.0)
8 3913 23 2 345.0 45.0 (3913, 23) (345.0, 45.0)

然后使用apply 计算每个点的欧式距离,然后使用groupbycumsum 得到最终结果。

df['Distance'] = df.apply(lambda row: euclidean(row.point_1, row.point_2), axis=1)

df

X Y Group X_shift Y_shift point_1 point_2 Distance
0 0 0 0 0.0 0.0 (0, 0) (0.0, 0.0) 0.000000
3 353 41 0 0.0 0.0 (353, 41) (0.0, 0.0) 355.373043
6 789 23 0 353.0 41.0 (789, 23) (353.0, 41.0) 436.371401
1 123 12 1 123.0 12.0 (123, 12) (123.0, 12.0) 0.000000
4 467 23 1 123.0 12.0 (467, 23) (123.0, 12.0) 344.175827
7 543 53 1 467.0 23.0 (543, 53) (467.0, 23.0) 81.706793
2 342 23 2 342.0 23.0 (342, 23) (342.0, 23.0) 0.000000
5 345 45 2 342.0 23.0 (345, 45) (342.0, 23.0) 22.203603
8 3913 23 2 345.0 45.0 (3913, 23) (345.0, 45.0) 3568.067824

df['Cumulative Distance'] = df.groupby('Group').Distance.cumsum()

# Drop unuse columns
df.drop(columns=['X_shift', 'Y_shift', 'point_1', 'point_2'], inplace=True)
df.sort_index(inplace=True)
df

X Y Group Distance Cumulative Distance
0 0 0 0 0.000000 0.000000
1 123 12 1 0.000000 0.000000
2 342 23 2 0.000000 0.000000
3 353 41 0 355.373043 355.373043
4 467 23 1 344.175827 344.175827
5 345 45 2 22.203603 22.203603
6 789 23 0 436.371401 791.744445
7 543 53 1 81.706793 425.882620
8 3913 23 2 3568.067824 3590.271428

关于python - 如何在 pandas groupby 对象上应用函数并将结果保存回父数据框的新列中?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55708087/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com