- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一个以下形式的数据框,其中每一行对应于机器上运行的一个作业:
import pandas as pd
df = pd.DataFrame({
'MachineID': [4, 3, 2, 2, 1, 1, 5, 3],
'JobStartDate': ['2020-01-01', '2020-01-01', '2020-01-01', '2020-01-01', '2020-01-02', '2020-01-03', '2020-01-01', '2020-01-03'],
'JobEndDate': ['2020-01-03', '2020-01-03', '2020-01-04', '2020-01-02', '2020-01-04', '2020-01-05', '2020-01-02', '2020-01-04'],
'IsTypeAJob': [1, 1, 0, 1, 0, 0, 1, 1]
})
df
>>> MachineID JobStartDate JobEndDate IsTypeAJob
0 4 2020-01-01 2020-01-03 1
1 3 2020-01-01 2020-01-03 1
2 2 2020-01-01 2020-01-04 0
3 2 2020-01-01 2020-01-02 1
4 1 2020-01-02 2020-01-04 0
5 1 2020-01-03 2020-01-05 0
6 5 2020-01-01 2020-01-02 1
7 3 2020-01-03 2020-01-04 1
在我的数据中,有两种类型的作业可以在计算机上运行,类型 A
或类型 B
。我的目标是计算每天每台机器的 A
类型和 B
类型作业的数量。因此,期望的结果看起来像
MachineID Date TypeAJobs TypeBJobs
0 1 2020-01-02 0 1
1 1 2020-01-03 0 2
2 1 2020-01-04 0 2
3 1 2020-01-05 0 1
4 2 2020-01-01 1 1
5 2 2020-01-02 1 1
6 2 2020-01-03 0 1
7 2 2020-01-04 0 1
8 3 2020-01-01 1 0
9 3 2020-01-02 1 0
10 3 2020-01-03 2 0
11 3 2020-01-04 1 0
12 4 2020-01-01 1 0
13 4 2020-01-02 1 0
14 4 2020-01-03 1 0
15 5 2020-01-01 1 0
16 5 2020-01-02 1 0
我尝试过找到here的方法和 here使用resample()
和apply()
方法,但计算时间太慢。这与我的集合中的某些日期范围跨越多年这一事实有关,这意味着在重新采样期间,一行可能会扩展为 2000 多个新行(我的数据一开始包含大约一百万行)。因此,为某个作业范围内的每个日期创建新的机器/日期行之类的操作太慢(目标是执行 group_by(['MachineID', 'Date']).sum()
最后)。
我目前正在考虑一种新方法,首先按 MachineID
进行分组,然后查找该机器的最早作业开始日期和最晚作业结束日期。然后,我可以创建这两个日期之间的日期范围(按天递增),我将使用它来索引新的每台机器数据帧。然后,对于该 MachineID
的每个作业,我可能会对一系列日期进行求和,即用伪代码:
df['TypeAJobs'][row['JobStartDate']:row['JobEndDate']] += 1
如果是 A
类型作业或
df['TypeBJobs'][row['JobStartDate']:row['JobEndDate']] += 1
否则。
这似乎可以避免为每个作业创建一堆额外的行,因为现在我们正在为每台机器创建额外的行。此外,加法操作看起来会很快,因为我们一次添加到一系列的整个切片。但是,我不知道 Pandas 中是否可以进行类似的操作(按日期索引)。也许可以先进行一些转换?完成上述操作后,理想情况下我会得到许多与所需结果类似的数据帧,但只有一个 MachineID
,然后我将连接这些数据帧以获得结果。
我很想听到有关此方法或其他潜在算法的可行性/有效性的任何建议。非常感谢您的阅读!
最佳答案
IIUC,尝试使用 pd.date_range
和 explode
创建“每日”行,然后按日期和 IsTypeAJob 以及 rename
列进行分组:
df_out = df.assign(JobDates=df.apply(lambda x: pd.date_range(x['JobStartDate'],
x['JobEndDate'], freq='D'),
axis=1))\
.explode('JobDates')
df_out = df_out.groupby([df_out['MachineID'],
df_out['JobDates'].dt.floor('D'),
'IsTypeAJob'])['MachineID'].count()\
.unstack()\
.rename(columns={0:'TypeBJobs', 1:'TypeAJobs'})\
.fillna(0).reset_index()
df_out
输出:
IsTypeAJob MachineID JobDates TypeBJobs TypeAJobs
0 1 2020-01-02 1.0 0.0
1 1 2020-01-03 2.0 0.0
2 1 2020-01-04 2.0 0.0
3 1 2020-01-05 1.0 0.0
4 2 2020-01-01 1.0 1.0
5 2 2020-01-02 1.0 1.0
6 2 2020-01-03 1.0 0.0
7 2 2020-01-04 1.0 0.0
8 3 2020-01-01 0.0 1.0
9 3 2020-01-02 0.0 1.0
10 3 2020-01-03 0.0 2.0
11 3 2020-01-04 0.0 1.0
12 4 2020-01-01 0.0 1.0
13 4 2020-01-02 0.0 1.0
14 4 2020-01-03 0.0 1.0
15 5 2020-01-01 0.0 1.0
16 5 2020-01-02 0.0 1.0
pd.concat([pd.DataFrame({'JobDates':pd.date_range(r.JobStartDate, r.JobEndDate, freq='D'),
'MachineID':r.MachineID,
'IsTypeAJob':r.IsTypeAJob}) for i, r in df.iterrows()])
关于Python Pandas : Trying to speed-up a per row per date in date_range operation,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/62971307/
我是一名优秀的程序员,十分优秀!