gpt4 book ai didi

python - 返回每个 id 的持续时间

转载 作者:行者123 更新时间:2023-12-01 07:16:10 24 4
gpt4 key购买 nike

我有一个正在跟踪的大量事件列表,每个事件都附加了时间戳:

我目前有下表:

ID  Time_Stamp         Event
1 2/20/2019 18:21 0
1 2/20/2019 19:46 0
1 2/21/2019 18:35 0
1 2/22/2019 11:39 1
1 2/22/2019 16:46 0
1 2/23/2019 7:40 0
2 6/5/2019 0:10 0
3 7/31/2019 10:18 0
3 8/23/2019 16:33 0
4 6/26/2019 20:49 0

我想要的是以下内容[但不确定是否可能]:

ID  Time_Stamp       Conversion  Total_Duration_Days    Conversion_Duration
1 2/20/2019 18:21 0 2.555 1.721
1 2/20/2019 19:46 0 2.555 1.721
1 2/21/2019 18:35 0 2.555 1.721
1 2/22/2019 11:39 1 2.555 1.721
1 2/22/2019 16:46 1 2.555 1.934
1 2/23/2019 7:40 0 2.555 1.934
2 6/5/2019 0:10 0 1.00 0.000
3 7/31/2019 10:18 0 23.260 0.000
3 8/23/2019 16:33 0 23.260 0.000
4 6/26/2019 20:49 0 1.00 0.000

对于 #1 总持续时间 = 最大日期 - 最短日期 [2.555 天]

对于 #2 转化持续时间 = 转化日期 - 最短日期 [1.721 天] - 转化后的以下操作可以保留在计算的持续时间内

我尝试了以下操作:

df.reset_index(inplace=True)
df.groupby(['ID'])['Time_Stamp].diff().fillna(0)

这符合我的要求,但它显示了每个事件之间的差异,而不是最小时间戳到最大时间戳

conv_test = df.reset_index(inplace=True)

min_df = conv_test.groupby(['ID'])['visitStartTime_aest'].agg('min').to_frame('MinTime')

max_df = conv_test.groupby(['ID'])['visitStartTime_aest'].agg('max').to_frame('MaxTime')

conv_test = conv_test.set_index('ID').merge(min_df, left_index=True, right_index=True)

conv_test = conv_test.merge(max_df, left_index=True, right_index=True)

conv_test['Durartion'] = conv_test['MaxTime'] - conv_test['MinTime']

这给了我Total_Duration_Days,这很棒[随意提供更优雅的解决方案

关于如何获得 Conversion_Duration 有什么想法吗?

最佳答案

您可以使用GroupBy.transform对于与原始大小相同的 Series,使用 minmax,因此可以减去 Total_Duration_Days,然后仅过滤 1 行由 Event,创建 Series by DataFrame.set_index并转换为 dict,然后 Series.map对于新系列,因此可以减去每组的最小值:

df['Time_Stamp'] = pd.to_datetime(df['Time_Stamp'])

min1 = df.groupby('ID')['Time_Stamp'].transform('min')
max1 = df.groupby('ID')['Time_Stamp'].transform('max')
df['Total_Duration_Days'] = max1.sub(min1).dt.total_seconds() / (3600 * 24)

d = df.loc[df['Event'] == 1].set_index('ID')['Time_Stamp'].to_dict()
new1 = df['ID'].map(d)

因为每组可能有多个1,因此仅针对该组添加了解决方案 - 测试,如果掩码中每组有更多1,则获得系列new2 然后使用 Series.combine_first映射系列new1

原因是提高性能,因为处理倍数1有点复杂。

mask = df['Event'].eq(1).groupby(df['ID']).transform('sum').gt(1)
g = df[mask].groupby('ID')['Event'].cumsum().replace({0:np.nan})
new2 = (df[mask].groupby(['ID', g])['Time_Stamp']
.transform('first')
.groupby(df['ID'])
.bfill())
df['Conversion_Duration'] = (new2.combine_first(new1)
.sub(min1)
.dt.total_seconds().fillna(0) / (3600 * 24))

print (df)
ID Time_Stamp Event Total_Duration_Days Conversion_Duration
0 1 2019-02-20 18:21:00 0 2.554861 1.720833
1 1 2019-02-20 19:46:00 0 2.554861 1.720833
2 1 2019-02-21 18:35:00 0 2.554861 1.720833
3 1 2019-02-22 11:39:00 1 2.554861 1.720833
4 1 2019-02-22 16:46:00 1 2.554861 1.934028
5 1 2019-02-23 07:40:00 0 2.554861 1.934028
6 2 2019-06-05 00:10:00 0 0.000000 0.000000
7 3 2019-07-31 10:18:00 0 23.260417 0.000000
8 3 2019-08-23 16:33:00 0 23.260417 0.000000
9 4 2019-06-26 20:49:00 0 0.000000 0.000000

关于python - 返回每个 id 的持续时间,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57932786/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com