Python Pandas : Trying to speed-up a per row per date in date

Python Pandas : Trying to speed-up a per row per date in date_range operation

转载作者：行者123 更新时间：2023-12-02 19:21:47

我有一个以下形式的数据框，其中每一行对应于机器上运行的一个作业:

import pandas as pd
df = pd.DataFrame({
    'MachineID': [4, 3, 2, 2, 1, 1, 5, 3],
    'JobStartDate': ['2020-01-01', '2020-01-01', '2020-01-01', '2020-01-01', '2020-01-02', '2020-01-03', '2020-01-01', '2020-01-03'], 
    'JobEndDate': ['2020-01-03', '2020-01-03', '2020-01-04', '2020-01-02', '2020-01-04', '2020-01-05', '2020-01-02', '2020-01-04'], 
    'IsTypeAJob': [1, 1, 0, 1, 0, 0, 1, 1]
    })
    
df
>>>    MachineID JobStartDate JobEndDate  IsTypeAJob
0          4      2020-01-01  2020-01-03      1
1          3      2020-01-01  2020-01-03      1
2          2      2020-01-01  2020-01-04      0
3          2      2020-01-01  2020-01-02      1
4          1      2020-01-02  2020-01-04      0
5          1      2020-01-03  2020-01-05      0
6          5      2020-01-01  2020-01-02      1
7          3      2020-01-03  2020-01-04      1

在我的数据中，有两种类型的作业可以在计算机上运行，类型 A 或类型 B。我的目标是计算每天每台机器的 A 类型和 B 类型作业的数量。因此，期望的结果看起来像

        MachineID    Date         TypeAJobs  TypeBJobs
0           1     2020-01-02          0          1
1           1     2020-01-03          0          2
2           1     2020-01-04          0          2
3           1     2020-01-05          0          1
4           2     2020-01-01          1          1
5           2     2020-01-02          1          1
6           2     2020-01-03          0          1
7           2     2020-01-04          0          1
8           3     2020-01-01          1          0
9           3     2020-01-02          1          0
10          3     2020-01-03          2          0
11          3     2020-01-04          1          0
12          4     2020-01-01          1          0
13          4     2020-01-02          1          0
14          4     2020-01-03          1          0
15          5     2020-01-01          1          0
16          5     2020-01-02          1          0

我尝试过找到here的方法和 here使用resample()和apply()方法，但计算时间太慢。这与我的集合中的某些日期范围跨越多年这一事实有关，这意味着在重新采样期间，一行可能会扩展为 2000 多个新行(我的数据一开始包含大约一百万行)。因此，为某个作业范围内的每个日期创建新的机器/日期行之类的操作太慢(目标是执行 group_by(['MachineID', 'Date']).sum() 最后)。

我目前正在考虑一种新方法，首先按 MachineID 进行分组，然后查找该机器的最早作业开始日期和最晚作业结束日期。然后，我可以创建这两个日期之间的日期范围(按天递增)，我将使用它来索引新的每台机器数据帧。然后，对于该 MachineID 的每个作业，我可能会对一系列日期进行求和，即用伪代码:

df['TypeAJobs'][row['JobStartDate']:row['JobEndDate']] += 1 如果是 A 类型作业或

df['TypeBJobs'][row['JobStartDate']:row['JobEndDate']] += 1 否则。

这似乎可以避免为每个作业创建一堆额外的行，因为现在我们正在为每台机器创建额外的行。此外，加法操作看起来会很快，因为我们一次添加到一系列的整个切片。但是，我不知道 Pandas 中是否可以进行类似的操作(按日期索引)。也许可以先进行一些转换？完成上述操作后，理想情况下我会得到许多与所需结果类似的数据帧，但只有一个 MachineID，然后我将连接这些数据帧以获得结果。

我很想听到有关此方法或其他潜在算法的可行性/有效性的任何建议。非常感谢您的阅读!

最佳答案

IIUC，尝试使用 pd.date_range 和 explode 创建“每日”行，然后按日期和 IsTypeAJob 以及 rename 列进行分组:

df_out = df.assign(JobDates=df.apply(lambda x: pd.date_range(x['JobStartDate'], 
                                                             x['JobEndDate'], freq='D'), 
                                     axis=1))\
           .explode('JobDates')

df_out = df_out.groupby([df_out['MachineID'], 
                         df_out['JobDates'].dt.floor('D'), 
                         'IsTypeAJob'])['MachineID'].count()\
               .unstack()\
               .rename(columns={0:'TypeBJobs', 1:'TypeAJobs'})\
               .fillna(0).reset_index()

df_out

输出:

IsTypeAJob  MachineID   JobDates  TypeBJobs  TypeAJobs
0                   1 2020-01-02        1.0        0.0
1                   1 2020-01-03        2.0        0.0
2                   1 2020-01-04        2.0        0.0
3                   1 2020-01-05        1.0        0.0
4                   2 2020-01-01        1.0        1.0
5                   2 2020-01-02        1.0        1.0
6                   2 2020-01-03        1.0        0.0
7                   2 2020-01-04        1.0        0.0
8                   3 2020-01-01        0.0        1.0
9                   3 2020-01-02        0.0        1.0
10                  3 2020-01-03        0.0        2.0
11                  3 2020-01-04        0.0        1.0
12                  4 2020-01-01        0.0        1.0
13                  4 2020-01-02        0.0        1.0
14                  4 2020-01-03        0.0        1.0
15                  5 2020-01-01        0.0        1.0
16                  5 2020-01-02        0.0        1.0

pd.concat([pd.DataFrame({'JobDates':pd.date_range(r.JobStartDate, r.JobEndDate, freq='D'),
                        'MachineID':r.MachineID, 
                        'IsTypeAJob':r.IsTypeAJob}) for i, r in df.iterrows()])

关于Python Pandas : Trying to speed-up a per row per date in date_range operation，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/62971307/

文章推荐： assembly - 如何使用lea指令实现shr指令？

文章推荐： docker-compose couchdb 缺少文件

文章推荐： python - docker zabbix 设备中的 API 连接问题

文章推荐： maven - 如何在 Mac Catalina 中安装 Maven？

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

Python Pandas : Trying to speed-up a per row per date in date_range operation