gpt4 book ai didi

python - pandas中如何比较workers时间范围内的事务时间点将员工添加到事务表中?

转载 作者:行者123 更新时间:2023-12-01 23:15:20 24 4
gpt4 key购买 nike

我想计算 worker 的小费。几名 worker 处理每笔交易。我有 2 个数据框,ts_df(用于交易)和 shift_df(用于 worker 轮类),用于计算每个工作的小费金额。

事务表示例:

>>> ts_df.head()
Date Time tip
1 2021-03-01 09:00:39 2.40
2 2021-03-01 09:27:39 5.45
4 2021-03-01 09:54:50 2.00
5 2021-03-01 09:57:37 2.10
6 2021-03-01 10:35:56 2.57
>>> ts_df.dtypes
Date object
Time object
tip float64
dtype: object

这里是转移交易的例子:

>>> shift_df.head()
Date Clock_start Clock_end employee
0 2021-03-01 08:30:00 14:30:00 Jose
1 2021-03-01 09:30:00 15:30:00 April
2 2021-03-02 06:00:00 07:30:00 John
3 2021-03-02 08:30:00 14:30:00 Jose
4 2021-03-02 09:30:00 15:30:00 April
>>> shift_df.dtypes
Date object
Clock_start object
Clock_end object
employee object
dtype: object

所有日期和时间对象都是 python date() 和 time() 对象。

例如,Jose 和 April 为交易[4] (4 2021-03-01 09:54:50 2.00) 工作。 Jose 和 April 应该各得 1.00。最好的方法是什么?

我正在考虑的是可以将交易的工作人员列表添加到列表中以计算小费金额。像这样:

在 ts_df 中:

         Date      Time   tip      workers
1 2021-03-01 09:00:39 2.40 ['Jose']
2 2021-03-01 09:27:39 5.45 ['Jose']
4 2021-03-01 09:54:50 2.00 ['Jose', 'April']
5 2021-03-01 09:57:37 2.10 ['Jose', 'April']
6 2021-03-01 10:35:56 2.57 ['Jose', 'April']

请教我如何比较两个独立的表来计算 worker 的小费。

提前致谢!

最佳答案

重现原始数据框:

ts_df = pd.DataFrame(
[
['2021-03-01', '09:00:39', 2.4],
['2021-03-01', '09:27:39', 5.45],
['2021-03-01', '09:54:50', 2.0],
['2021-03-01', '09:57:37', 2.1],
['2021-03-01', '10:35:36', 2.57]
]
)
ts_df.columns=['Date', 'Time', 'tip']

shift_df = pd.DataFrame(
[
['2021-03-01', '08:30:00', '14:30:00', 'Jose'],
['2021-03-01', '09:30:00', '15:30:00', 'April'],
['2021-03-02', '06:00:00', '07:30:00', 'John'],
['2021-03-02', '08:30:00', '14:30:00', 'Jose'],
['2021-03-02', '09:30:00', '15:30:00', 'April']
]
)

shift_df.columns = ['Date', 'Clock_start', 'Clock_end', 'employee']

ts_df['Date'] = pd.to_datetime(ts_df['Date']).dt.date
ts_df['Time'] = pd.to_datetime(ts_df['Time'], format = '%H:%M:%S').dt.time

shift_df['Date'] = pd.to_datetime(shift_df['Date']).dt.date
shift_df['Clock_start'] = (
pd.to_datetime(shift_df['Clock_start'], format = '%H:%M:%S').dt.time
)
shift_df['Clock_end'] = (
pd.to_datetime(shift_df['Clock_end'], format = '%H:%M:%S').dt.time
)

现在我们需要像@Miguel 所说的那样进行交叉连接和过滤!

temp_df = ts_df.merge(
shift_df
)

ts_df = (
temp_df.loc[
(temp_df.Clock_start <= temp_df.Time) &
(temp_df.Time <= temp_df.Clock_end)
]
)

cross-join

很酷,现在我们有一个 worker 的每个实例和他们得到的小费,但我们仍然没有您想要的列表,每个小费只有一行

ts_df = (
ts_df
.groupby(['Date', 'Time', 'tip'])['employee']
.apply(list)
.reset_index(name='workers')
)

list of workers

关于python - pandas中如何比较workers时间范围内的事务时间点将员工添加到事务表中?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/69017964/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com