python - 合并时间到时间段-6ren

python - 合并时间到时间段

转载作者：太空宇宙更新时间：2023-11-03 10:58:20

28

4

我有一个 DataFrame带有测量值，包含测量值和时间。

time = [datetime.datetime(2011, 1, 1, np.random.randint(0,23), np.random.randint(1, 59)) for _ in xrange(10)]
df_meas = pandas.DataFrame({'time': time, 'value': np.random.random(10)})

例如:

                 time     value
0 2011-01-01 21:56:00  0.115025
1 2011-01-01 04:40:00  0.678882
2 2011-01-01 02:18:00  0.507168
3 2011-01-01 22:40:00  0.938408
4 2011-01-01 12:53:00  0.193573
5 2011-01-01 19:37:00  0.464744
6 2011-01-01 16:06:00  0.794495
7 2011-01-01 18:32:00  0.482684
8 2011-01-01 13:26:00  0.381747
9 2011-01-01 01:50:00  0.035798

数据采集是按周期组织的，我还有另一个 DataFrame为此:

start = pandas.date_range('1/1/2011', periods=5, freq='H')
stop = start + np.timedelta64(50, 'm')
df_runs = pandas.DataFrame({'start': start, 'stop': stop}, index=np.random.randint(0, 1000000, 5))
df_runs.index.name = 'run'

例如:

                     start                stop
run                                           
721158 2011-01-01 00:00:00 2011-01-01 00:50:00
340902 2011-01-01 01:00:00 2011-01-01 01:50:00
211578 2011-01-01 02:00:00 2011-01-01 02:50:00
120232 2011-01-01 03:00:00 2011-01-01 03:50:00
122199 2011-01-01 04:00:00 2011-01-01 04:50:00

现在我想合并两个表，得到:

                 time     value   run
0 2011-01-01 21:56:00  0.115025   NaN
1 2011-01-01 04:40:00  0.678882   122199  
2 2011-01-01 02:18:00  0.507168   211578 
3 2011-01-01 22:40:00  0.938408   NaN
...

时间段(run s)有一个start和一个 stop和 stop >= start .不同的运行永远不会重叠。 (即使在我的例子中它不是真的)你可以假设运行是有序的(按 run )并且如果 run1 < run2然后 start1 < start2 (或者您可以简单地按 start 对表格进行排序)。您还可以假设 df_meas按 time 排序.

该怎么做？有内置的东西吗？什么是最有效的方法？

最佳答案

您可以先通过 stack reshape df_runs - start 和stop 在一列time 中。然后通过rungroupby, resample按 分钟 和 ffill用于填充 NaN 值。最后 merge到 df_meas:

注意 - 此代码适用于最新的 pandas 版本 0.18.1 see docs .

import pandas as pd
import numpy as np
import datetime as datetime

#for testing
np.random.seed(1)
time = [datetime.datetime(2011, 1, 1, np.random.randint(0,23), np.random.randint(1, 59)) for _ in range(10)]
df_meas = pd.DataFrame({'time': time, 'value': np.random.random(10)})

start = pd.date_range('1/1/2011', periods=5, freq='H')
stop = start + np.timedelta64(50, 'm')
df_runs = pd.DataFrame({'start': start, 'stop': stop}, index=np.random.randint(0, 1000000, 5))
df_runs.index.name = 'run'

df = (df_runs.stack().reset_index(level=1, drop=True).reset_index(name='time'))
print (df)
      run                time
0   99335 2011-01-01 00:00:00
1   99335 2011-01-01 00:50:00
2  823615 2011-01-01 01:00:00
3  823615 2011-01-01 01:50:00
4  117565 2011-01-01 02:00:00
5  117565 2011-01-01 02:50:00
6  790038 2011-01-01 03:00:00
7  790038 2011-01-01 03:50:00
8  369977 2011-01-01 04:00:00
9  369977 2011-01-01 04:50:00

df1 = (df.set_index('time')
         .groupby('run')
         .resample('Min')
         .ffill()
         .reset_index(level=0, drop=True)
         .reset_index())

print (df1)
                   time     run
0   2011-01-01 00:00:00   99335
1   2011-01-01 00:01:00   99335
2   2011-01-01 00:02:00   99335
3   2011-01-01 00:03:00   99335
4   2011-01-01 00:04:00   99335
5   2011-01-01 00:05:00   99335
6   2011-01-01 00:06:00   99335
7   2011-01-01 00:07:00   99335
8   2011-01-01 00:08:00   99335
9   2011-01-01 00:09:00   99335
...
...

print (pd.merge(df_meas, df1, on='time', how='left'))
                 time     value       run
0 2011-01-01 05:44:00  0.524548       NaN
1 2011-01-01 12:09:00  0.443453       NaN
2 2011-01-01 09:12:00  0.229577       NaN
3 2011-01-01 05:16:00  0.534414       NaN
4 2011-01-01 00:17:00  0.913962   99335.0
5 2011-01-01 01:13:00  0.457205  823615.0
6 2011-01-01 07:46:00  0.430699       NaN
7 2011-01-01 06:26:00  0.939128       NaN
8 2011-01-01 18:21:00  0.778389       NaN
9 2011-01-01 05:19:00  0.715971       NaN

IanS的解决方案非常好，我尝试用 pd.lreshape 改进它:

df_runs['run1'] = -1 
df_runs = df_runs.reset_index()

run_times = (pd.lreshape(df_runs, {'Run':['run', 'run1'], 
                                   'Time':['start', 'stop']})
               .sort_values('Time')
               .set_index('Time'))

print (run_times['Run'].asof(df_meas['time']))

time
2011-01-01 05:44:00        -1
2011-01-01 12:09:00        -1
2011-01-01 09:12:00        -1
2011-01-01 05:16:00        -1
2011-01-01 00:17:00     99335
2011-01-01 01:13:00    823615
2011-01-01 07:46:00        -1
2011-01-01 06:26:00        -1
2011-01-01 18:21:00        -1
2011-01-01 05:19:00        -1
Name: Run, dtype: int64

关于python - 合并时间到时间段，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/37385992/

28

4

0

文章推荐： python - 如何扫描允许转义字符的字符串文字？

文章推荐： php - 如何在删除条目时自动更新 MySQL 中的主键值？

文章推荐： python - Pandas 数据帧矢量化采样

文章推荐： python - 从兄弟目录导入模块以与 py.test 一起使用

Java 时间段(十进制年数)
如果我使用以下方法计算 java.time 中 2 个 LocalDate 之间的差异: Period p = Period.between(testDate, today); 然后我得到一个包含年、
sql - 表示日期/时间段
我正在开发一个有多种不同费率的预订平台。这些费率由一天中的时间、星期几和一年中的一天决定。以下是所涉及的间隔类型的一些示例: 周一至周五，上午 9 点至下午 5 点周六和周日，中午 12 点到早上
r - 时间段 R 的条件总和
我有大量数据，包括开始时间、停止时间和值。开始和停止时间因行而异，以 5 分钟为增量。我正在尝试创建一个新的数据框，该数据框具有 5 分钟的间隔以及该间隔在行的开始和停止范围内的所有行的总和。我有一
mysql - 时间段 SQL 查询
我有一个这样的表: --------------------------------------------- |Id | Step | StartedAt
两个日期之间的 C# 时间段(以周为单位)
我有一个网络应用程序，用户将在其中输入 2 个日期。一个 StartDate 和一个 EndDate。现在我想编写它，以便在选择 StartDate 和 EndDate 时确定有多少周，然后显示这些周
java - 如何比较两个 Joda 时间段
这看起来并不直截了当。我正在尝试: @Override public int compare(Period o1, Period o2) { return o1.toStandardDays
php - iCal 不显示组织者的 session 时间段
我必须为团队发送 session 邀请，这是我的邮件 $ical = 'BEGIN:VCALENDAR PRODID:-//Microsoft Corporation//Outlook 11.0
php - DateInterval 不接受以毫秒为单位的 ISO 8601 时间段
我有这个 ISO 8601 时间段字符串: P0Y0M0DT3H5M0.000S 并且 PHP7.4 无法用它构造 DateInterval。 format('%h Hours %m Minutes
time - LibreOffice SUM 时间段，格式为 HH :MM:SS
我想要获取包含一段时间(格式为 HH:MM:SS)的多个单元格的总和。在 LibreOffice Calc 4.0.3.3 中，我复制粘贴了 G14:G21 范围内的时间段，并将单元格格式设置为时间
mysql - SELECT/GROUP BY - 时间段(10 秒、30 秒等)
我有一个表(MySQL)，每n秒捕获一次样本。该表有很多列，但重要的是两列:时间戳(TIMESTAMP 类型)和计数(INT 类型)。我想做的是获取一定时间范围内计数列的总和和平均值。例如，我每 2
mysql - SELECT/GROUP BY - 时间段(10 秒、30 秒等)
我有一个表(MySQL)，每n秒捕获一次样本。该表有很多列，但重要的是两列:时间戳(TIMESTAMP 类型)和计数(INT 类型)。我想做的是获取一定时间范围内计数列的总和和平均值。例如，我每 2
java - 使用 Joda-Time PeriodFormatter 显示 "negative"时间段
我在一个项目上使用 joda-time (1.6.2)，我正在做的其中一件事就是计算预测时间和实际时间之间的差异。这种差异有时是积极的，有时是消极的。虽然适当的方法可能是使用 Duration 而不是
mysql - SELECT/GROUP BY - 时间段(10 秒、30 秒等)
我有一个表 (MySQL)，它每 n 秒捕获一次样本。该表有很多列，但最重要的是两列:一个时间戳(TIMESTAMP 类型)和一个计数(INT 类型)。我想做的是获取计数列在一段时间内的总和和平均值
date-range - 如何在 Google Data Studio 中创建 'past 3 months' 时间段
我想让我的折线图显示过去 3 个月的数据。 GDS 有一个“最后一个季度”的日期范围，但这显示的是 Q1、Q2、Q3 或 Q4。我需要的是过去3个整月(不算当月)的数据。我尝试创建一个计算字段，但事实
date-range - 如何在 Google Data Studio 中创建 'past 3 months' 时间段
我想让我的折线图显示过去 3 个月的数据。 GDS 有一个“最后一个季度”的日期范围，但这显示的是 Q1、Q2、Q3 或 Q4。我需要的是过去3个整月(不算当月)的数据。我尝试创建一个计算字段，但事实

首页

博学

6Ren·AI

商城

python - 合并时间到时间段