gpt4 book ai didi

python 、 Pandas : join dataframes on timestamp and offset

转载 作者:太空宇宙 更新时间:2023-11-03 14:51:07 24 4
gpt4 key购买 nike

实际上是两个问题,但让我们尝试解释一下。

我有两个数据源(例如数据帧)。其中一个包含 GPS 坐标和行驶轨迹的时间戳。另一个包含特定的兴趣点,由时间偏移给出 - 但没有 GPS 坐标。任务是找到兴趣点的 GPS 坐标。

这就是我得到的。具有 GPS 坐标的数据帧以 1 秒的间隔重新采样,并以线性方式插入缺失值:

df_resampled.head()

有了这个输出:

Time, LongitudeDegrees, LatitudeDegrees, DistanceMeters, AltitudeMeters

2017-08-24 13:33:46, 15.457636, 47.047332, 0.0, 348.600006
2017-08-24 13:33:47, 15.457668, 47.047288, 0.0, 348.600006
2017-08-24 13:33:48, 15.457699, 47.047244, 0.0, 348.600006
2017-08-24 13:33:49, 15.457973, 47.047136, 0.0, 348.600006

备注:类型均为float,索引为Numpy.dtype(日期时间)。转换和重新采样是通过以下方式完成的:

# convert numeric types first
df = df.apply(pd.to_numeric, errors='ignore')

# convert timestamp to datetime and set the index
df['Time'] = pd.to_datetime(df['Time'])
df.set_index('Time', inplace=True)

# resample to seconds and linear fill of missing values
df_downscaled = df.resample('S').mean()
df_resampled = df_downscaled.interpolate(method='linear')

另一个数据帧包含兴趣点,没有时间戳,但有时间偏移:

df_poi.head()

给出这个输出:

index, time_offset, value

0, 00:25, 60
1, 01:18, 60
2, 01:30, 100
3, 01:55, 100
4, 02:16, 100

问题和任务:但现在我陷入困境。我正在考虑将第二个数据帧的 time_offset 列转换为周期或日期时间类型,并将其添加到第一个数据帧的第一个时间戳 (start_time)。

但是a)我不知道如何将mm:ss(分钟:秒)格式的字符串转换为日期时间偏移(或句点)并将其添加到另一个时间戳。

必须添加所有偏移量的 start_time 如下:

start_time = df_resampled.index[0]

一旦偏移量转换为真实时间戳,我会将第二个数据帧与时间戳列上的第一个数据帧连接起来。

最佳答案

pd.to_timedelta 可以将 HH:MM:SS 格式的字符串转换为 timedelta64。由于您的字符串采用 MM:SS 格式,因此您可以使用

df_poi['time_offset'] = pd.to_timedelta('00:' + df_poi['time_offset'])

将它们转换为timedelta64。 (('00:' + df_poi['time_offset']) 添加00:df_poi['time_offset'] 中的每个字符串,形成一个新字符串HH:MM:SS 格式。)

您可以将start添加到df_poi['time_offset']:

start = df.index[0]
df_poi['Time'] = df_poi['time_offset'] + start

现在您可以合并两个 DataFrame:

result = pd.merge(df, df_poi, how='right', left_index=True, right_on='Time')
<小时/>
import pandas as pd
import numpy as np
np.random.seed(2017)
N, M = 1000, 5
df = pd.DataFrame({'Time':pd.date_range('2017-8-24 13:33:46', periods=N, freq='S'),
'Long':np.random.uniform(0, 360, size=N),
'Lat':np.random.uniform(-90, 90, size=N),})
df = df.set_index(['Time'])

df_poi = pd.DataFrame({'time_offset':['00:25', '01:18', '01:30', '01:55', '02:16'],
'value':np.random.randint(100, size=M)})

df_poi['time_offset'] = pd.to_timedelta('00:' + df_poi['time_offset'])
start = df.index[0]
df_poi['Time'] = df_poi['time_offset'] + start
result = pd.merge(df, df_poi, how='right', left_index=True, right_on='Time')

产量

         Lat        Long time_offset  value                Time
0 -19.851775 276.063876 00:00:25 28 2017-08-24 13:34:11
1 22.399545 61.956233 00:01:18 68 2017-08-24 13:35:04
2 35.472442 275.165153 00:01:30 56 2017-08-24 13:35:16
3 -60.588755 91.961901 00:01:55 2 2017-08-24 13:35:41
4 34.339641 4.033255 00:02:16 75 2017-08-24 13:36:02

关于 python 、 Pandas : join dataframes on timestamp and offset,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45895600/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com