gpt4 book ai didi

python - 计算 dask 数据框中 2 个日期时间列之间的天数

转载 作者:太空宇宙 更新时间:2023-11-04 00:09:52 27 4
gpt4 key购买 nike

我有一个包含两列的 dask 数据框,它是字符串格式,如下所示

start_date  end_date
2018-09-01 2018-10-01
2018-09-02 2018-09-22
...

我想计算两列之间的天数。如果它是一个 pandas 数据框,我可以这样做:

df["num_days"] = (df["end_day"]-df["start_date"]).apply(lambda s:s.total_seconds()/24/60/60)

但是在 dask dataframe 中,这似乎不起作用。无论如何计算在这种情况下列之间经过的天数?

谢谢

最佳答案

dask.dataframe支持 Pandas API 的一个有用子集,包括 Series.dt方法。因此,您可以直接使用此功能:

import dask.dataframe as dd

df = dd.read_csv(r'file.csv', delim_whitespace=True,
parse_dates=['start_date', 'end_date'])

df['days'] = (df['end_date'] - df['start_date']).dt.days

print(df.compute())

start_date end_date days
0 2018-09-01 2018-10-01 30
1 2018-09-02 2018-09-22 20

关于python - 计算 dask 数据框中 2 个日期时间列之间的天数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52933379/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com