gpt4 book ai didi

Python Pandas : Trying to speed-up a per row per date in date_range operation

转载 作者:行者123 更新时间:2023-12-02 02:44:56 26 4
gpt4 key购买 nike

我有一个以下形式的数据框,其中每一行对应于机器上运行的一个作业:

import pandas as pd
df = pd.DataFrame({
'MachineID': [4, 3, 2, 2, 1, 1, 5, 3],
'JobStartDate': ['2020-01-01', '2020-01-01', '2020-01-01', '2020-01-01', '2020-01-02', '2020-01-03', '2020-01-01', '2020-01-03'],
'JobEndDate': ['2020-01-03', '2020-01-03', '2020-01-04', '2020-01-02', '2020-01-04', '2020-01-05', '2020-01-02', '2020-01-04'],
'IsTypeAJob': [1, 1, 0, 1, 0, 0, 1, 1]
})

df
>>> MachineID JobStartDate JobEndDate IsTypeAJob
0 4 2020-01-01 2020-01-03 1
1 3 2020-01-01 2020-01-03 1
2 2 2020-01-01 2020-01-04 0
3 2 2020-01-01 2020-01-02 1
4 1 2020-01-02 2020-01-04 0
5 1 2020-01-03 2020-01-05 0
6 5 2020-01-01 2020-01-02 1
7 3 2020-01-03 2020-01-04 1

在我的数据中,有两种类型的作业可以在计算机上运行,​​类型 A 或类型 B。我的目标是计算每天每台机器的 A 类型和 B 类型作业的数量。因此,期望的结果看起来像

        MachineID    Date         TypeAJobs  TypeBJobs
0 1 2020-01-02 0 1
1 1 2020-01-03 0 2
2 1 2020-01-04 0 2
3 1 2020-01-05 0 1
4 2 2020-01-01 1 1
5 2 2020-01-02 1 1
6 2 2020-01-03 0 1
7 2 2020-01-04 0 1
8 3 2020-01-01 1 0
9 3 2020-01-02 1 0
10 3 2020-01-03 2 0
11 3 2020-01-04 1 0
12 4 2020-01-01 1 0
13 4 2020-01-02 1 0
14 4 2020-01-03 1 0
15 5 2020-01-01 1 0
16 5 2020-01-02 1 0

我尝试过找到here的方法和 here使用resample()apply()方法,但计算时间太慢。这与我的集合中的某些日期范围跨越多年这一事实有关,这意味着在重新采样期间,一行可能会扩展为 2000 多个新行(我的数据一开始包含大约一百万行)。因此,为某个作业范围内的每个日期创建新的机器/日期行之类的操作太慢(目标是执行 group_by(['MachineID', 'Date']).sum() 最后)。

我目前正在考虑一种新方法,首先按 MachineID 进行分组,然后查找该机器的最早作业开始日期和最晚作业结束日期。然后,我可以创建这两个日期之间的日期范围(按天递增),我将使用它来索引新的每台机器数据帧。然后,对于该 MachineID 的每个作业,我可能会对一系列日期进行求和,即用伪代码:

df['TypeAJobs'][row['JobStartDate']:row['JobEndDate']] += 1 如果是 A 类型作业或

df['TypeBJobs'][row['JobStartDate']:row['JobEndDate']] += 1 否则。

这似乎可以避免为每个作业创建一堆额外的行,因为现在我们正在为每台机器创建额外的行。此外,加法操作看起来会很快,因为我们一次添加到一系列的整个切片。但是,我不知道 Pandas 中是否可以进行类似的操作(按日期索引)。也许可以先进行一些转换?完成上述操作后,理想情况下我会得到许多与所需结果类似的数据帧,但只有一个 MachineID,然后我将连接这些数据帧以获得结果。

我很想听到有关此方法或其他潜在算法的可行性/有效性的任何建议。非常感谢您的阅读!

最佳答案

IIUC,尝试使用 pd.date_rangeexplode 创建“每日”行,然后按日期和 IsTypeAJob 以及 rename 列进行分组:

df_out = df.assign(JobDates=df.apply(lambda x: pd.date_range(x['JobStartDate'], 
x['JobEndDate'], freq='D'),
axis=1))\
.explode('JobDates')

df_out = df_out.groupby([df_out['MachineID'],
df_out['JobDates'].dt.floor('D'),
'IsTypeAJob'])['MachineID'].count()\
.unstack()\
.rename(columns={0:'TypeBJobs', 1:'TypeAJobs'})\
.fillna(0).reset_index()

df_out

输出:

IsTypeAJob  MachineID   JobDates  TypeBJobs  TypeAJobs
0 1 2020-01-02 1.0 0.0
1 1 2020-01-03 2.0 0.0
2 1 2020-01-04 2.0 0.0
3 1 2020-01-05 1.0 0.0
4 2 2020-01-01 1.0 1.0
5 2 2020-01-02 1.0 1.0
6 2 2020-01-03 1.0 0.0
7 2 2020-01-04 1.0 0.0
8 3 2020-01-01 0.0 1.0
9 3 2020-01-02 0.0 1.0
10 3 2020-01-03 0.0 2.0
11 3 2020-01-04 0.0 1.0
12 4 2020-01-01 0.0 1.0
13 4 2020-01-02 0.0 1.0
14 4 2020-01-03 0.0 1.0
15 5 2020-01-01 0.0 1.0
16 5 2020-01-02 0.0 1.0

pd.concat([pd.DataFrame({'JobDates':pd.date_range(r.JobStartDate, r.JobEndDate, freq='D'),
'MachineID':r.MachineID,
'IsTypeAJob':r.IsTypeAJob}) for i, r in df.iterrows()])

关于Python Pandas : Trying to speed-up a per row per date in date_range operation,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/62971307/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com