gpt4 book ai didi

python - 在数据框中选择时间窗口

转载 作者:行者123 更新时间:2023-11-28 17:59:58 25 4
gpt4 key购买 nike

我有一个数据框 df,它看起来像这样:

                     HeartRate_smooth
2018-01-01 00:07:00 58.000000
2018-01-01 00:13:00 59.333333
2018-01-01 00:14:00 57.333333
2018-01-01 00:20:00 59.333333
2018-01-01 00:21:00 59.333333
2018-01-01 00:22:00 57.333333
2018-01-01 00:34:00 59.666667
2018-01-01 00:36:00 58.666667
2018-01-01 00:37:00 57.666667
2018-01-01 00:38:00 55.000000
2018-01-01 00:39:00 58.333333
2018-01-01 01:03:00 57.666667
2018-01-01 01:08:00 59.666667
2018-01-01 01:09:00 56.333333
2018-01-01 01:10:00 54.666667
2018-01-01 01:32:00 59.666667
2018-01-01 01:33:00 57.000000
2018-01-01 01:34:00 54.333333
2018-01-01 01:56:00 56.000000
2018-01-01 01:57:00 58.000000
2018-01-01 01:58:00 59.000000
2018-01-01 02:03:00 59.666667
2018-01-01 02:07:00 58.666667
2018-01-01 03:00:00 59.666667
2018-01-01 03:09:00 59.333333
2018-01-01 03:10:00 58.333333
2018-01-01 03:31:00 58.666667
2018-01-01 10:46:00 59.666667
2018-01-01 12:40:00 58.333333
2018-01-01 14:42:00 59.000000

此数据框是患者心率低于阈值时的时间点集合。我假设这些点是在病人休息或睡着的时候。我正试图找到可以识别患者 sleep 时间的地方。如果某个时间段的每一行之间的间隔小于 30 分钟,并且存在一个多小时的数据,我假设患者正在 sleep 。

在给定的数据框中,我可以假设患者在 00:07 到 02:07 之间睡着了。这是因为从 00:07 到 02:07 每行之间有不到 30 分钟的缺失数据。 02:07 之后的那一行有超过 30 分钟的时差,所以我假设病人已经醒来。

请注意,我将遍历多个患者数据,并且患者睡着的时间会有所不同。它可能并不总是从数据框中的第一个条目开始。

我的问题是:
1. 我如何识别患者睡着的时间段并将当前数据帧拆分为 2 个,其中一个 dfs 用于存储患者睡着时的数据,另一个用于存储患者清醒时的数据?
2. 这不是必需的,但如果可能的话,我怎样才能打印出病人睡着的时间和时间?

基于提供的示例数据帧的示例数据输出:
睡着了:

                     HeartRate_smooth
2018-01-01 00:07:00 58.000000
2018-01-01 00:13:00 59.333333
2018-01-01 00:14:00 57.333333
2018-01-01 00:20:00 59.333333
2018-01-01 00:21:00 59.333333
2018-01-01 00:22:00 57.333333
2018-01-01 00:34:00 59.666667
2018-01-01 00:36:00 58.666667
2018-01-01 00:37:00 57.666667
2018-01-01 00:38:00 55.000000
2018-01-01 00:39:00 58.333333
2018-01-01 01:03:00 57.666667
2018-01-01 01:08:00 59.666667
2018-01-01 01:09:00 56.333333
2018-01-01 01:10:00 54.666667
2018-01-01 01:32:00 59.666667
2018-01-01 01:33:00 57.000000
2018-01-01 01:34:00 54.333333
2018-01-01 01:56:00 56.000000
2018-01-01 01:57:00 58.000000
2018-01-01 01:58:00 59.000000
2018-01-01 02:03:00 59.666667
2018-01-01 02:07:00 58.666667

唤醒_df:

                     HeartRate_smooth
2018-01-01 03:00:00 59.666667
2018-01-01 03:09:00 59.333333
2018-01-01 03:10:00 58.333333
2018-01-01 03:31:00 58.666667
2018-01-01 10:46:00 59.666667
2018-01-01 12:40:00 58.333333
2018-01-01 14:42:00 59.000000

“患者从 00:07 到 03:31 睡了 3 小时 24 分钟”

最佳答案

我发现处理非索引时间更容易:

df.reset_index(inplace=True)

# df now has a timestamp column named 'index'

# difference with previous row larger than 30 mins
# cumsum for consecutive block:
df['block'] = df['index'].diff().dt.seconds.ge(30*60).cumsum()

# all sleep chunks
awake_df = (df.set_index('index')
.groupby('block')[['HeartRate_smooth']]
.apply(lambda x: x if len(x) > 1 else None)
)

输出awake_df:

+--------+----------------------+-------------------+
| | | HeartRate_smooth |
+--------+----------------------+-------------------+
| block | index | |
+--------+----------------------+-------------------+
| 0 | 2018-01-01 00:07:00 | 58.000000 |
| | 2018-01-01 00:13:00 | 59.333333 |
| | 2018-01-01 00:14:00 | 57.333333 |
| | 2018-01-01 00:20:00 | 59.333333 |
| | 2018-01-01 00:21:00 | 59.333333 |
| | 2018-01-01 00:22:00 | 57.333333 |
| | 2018-01-01 00:34:00 | 59.666667 |
| | 2018-01-01 00:36:00 | 58.666667 |
| | 2018-01-01 00:37:00 | 57.666667 |
| | 2018-01-01 00:38:00 | 55.000000 |
| | 2018-01-01 00:39:00 | 58.333333 |
| | 2018-01-01 01:03:00 | 57.666667 |
| | 2018-01-01 01:08:00 | 59.666667 |
| | 2018-01-01 01:09:00 | 56.333333 |
| | 2018-01-01 01:10:00 | 54.666667 |
| | 2018-01-01 01:32:00 | 59.666667 |
| | 2018-01-01 01:33:00 | 57.000000 |
| | 2018-01-01 01:34:00 | 54.333333 |
| | 2018-01-01 01:56:00 | 56.000000 |
| | 2018-01-01 01:57:00 | 58.000000 |
| | 2018-01-01 01:58:00 | 59.000000 |
| | 2018-01-01 02:03:00 | 59.666667 |
| | 2018-01-01 02:07:00 | 58.666667 |
| 1 | 2018-01-01 03:00:00 | 59.666667 |
| | 2018-01-01 03:09:00 | 59.333333 |
| | 2018-01-01 03:10:00 | 58.333333 |
| | 2018-01-01 03:31:00 | 58.666667 |
+--------+----------------------+-------------------+

请注意,有两个休眠 block ,因为您的数据实际上在 02:0703:00 之间有 53 分钟的间隔。并获得 sleep 时间:

(awake_df.reset_index(level=1)
.groupby('block')['index']
.apply(lambda x: x.max()-x.min())
)

给出:

block
0 02:00:00
1 00:22:00
Name: index, dtype: timedelta64[ns]

关于python - 在数据框中选择时间窗口,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56160465/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com