gpt4 book ai didi

python - 将每小时 Pandas 系列截断为全天

转载 作者:行者123 更新时间:2023-11-28 22:39:57 26 4
gpt4 key购买 nike

我使用的是 Pandas 0.17.1,我经常遇到包含部分天数的每小时系列数据。 pandas 中似乎没有任何内置功能允许您丢弃与 Series 数据边界上较粗略日期偏移的不完整段相对应的值(我只想丢弃存在于开头和/或系列的结尾)。

鉴于上述情况,我的直觉是我必须编写一些代码来抽象标准(例如,带有计数聚合的 groupby,丢弃 < 24 小时的天中的小时数):

>> hist_data.groupby(lambda x: x.date()).agg('count')
2007-01-01 23
2007-01-02 24
...

所需行为的示例:

>> hourly_data
2016-01-01 04:00:00 0.603820
2016-01-01 05:00:00 0.806696
2016-01-01 06:00:00 0.938521
2016-01-01 07:00:00 0.781834
2016-01-01 08:00:00 0.154952
...
2016-01-03 22:00:00 0.082177
2016-01-03 23:00:00 0.753210
2016-01-04 00:00:00 0.458402
2016-01-04 01:00:00 0.649496
2016-01-04 02:00:00 0.525321
2016-01-04 03:00:00 0.242605
Freq: H, dtype: float64

>> remove_partial_boundary_data(hourly_data)
2016-01-02 00:00:00 0.833063
2016-01-02 01:00:00 0.131586
2016-01-02 02:00:00 0.876609
2016-01-02 03:00:00 0.319436
2016-01-02 04:00:00 0.056246
...
2016-01-03 20:00:00 0.405725
2016-01-03 21:00:00 0.541096
2016-01-03 22:00:00 0.082177
2016-01-03 23:00:00 0.753210
Freq: H, dtype: float64

但是,如果我的时区不是 UTC(时区感知),则上面建议的方法似乎充满危险,因为 DST 过渡日的小时数可能是 23 或 25。

有谁知道处理此问题的巧妙或内置方法?

最佳答案

您可以使用 groupby 执行此操作并过滤不完整的组。为了检查完整性,我首先重新索引了数据,然后检查是否有 NaN 值:

In [10]: hourly_data = pd.Series(np.random.randn(72), index=pd.date_range('2016-01-01 04:00', periods=72, freq='H'))

In [11]: new_idx = pd.date_range(hourly_data.index[0].date(), hourly_data.index[-1].date() + pd.Timedelta('1 day'), freq='H')

In [12]: hourly_data.reindex(new_idx)
Out[12]:
2016-01-01 00:00:00 NaN
2016-01-01 01:00:00 NaN
2016-01-01 02:00:00 NaN
2016-01-01 03:00:00 NaN
2016-01-01 04:00:00 -0.941332
2016-01-01 05:00:00 1.802739
2016-01-01 06:00:00 0.798968
2016-01-01 07:00:00 -0.444979
...
2016-01-04 17:00:00 NaN
2016-01-04 18:00:00 NaN
2016-01-04 19:00:00 NaN
2016-01-04 20:00:00 NaN
2016-01-04 21:00:00 NaN
2016-01-04 22:00:00 NaN
2016-01-04 23:00:00 NaN
2016-01-05 00:00:00 NaN
Freq: H, dtype: float64

这导致了一个时间序列,其中包括时间序列中存在的日期的所有小时。这样,我们可以通过检查该日期是否有 NaN 值来检查该日期是否完整(此方法适用于 DST 转换),并使用此条件进行过滤:

In [13]: hourly_data.reindex(new_idx).groupby(lambda x: x.date()).filter(lambda x: x.isnull().sum() == 0)
Out[13]:
2016-01-02 00:00:00 -1.231445
2016-01-02 01:00:00 2.371690
2016-01-02 02:00:00 -0.695448
2016-01-02 03:00:00 0.745308
2016-01-02 04:00:00 0.814579
2016-01-02 05:00:00 1.345674
2016-01-02 06:00:00 -1.491470
2016-01-02 07:00:00 0.407182
...
2016-01-03 16:00:00 -0.742151
2016-01-03 17:00:00 0.677229
2016-01-03 18:00:00 0.832271
2016-01-03 19:00:00 -0.183729
2016-01-03 20:00:00 1.938594
2016-01-03 21:00:00 -0.816370
2016-01-03 22:00:00 1.745757
2016-01-03 23:00:00 0.223487
Freq: H, dtype: float64

原始答案您可以通过提供自定义函数使用 resample 执行此操作,然后您可以在该函数中指定不应跳过 NaN 值。

简答:

hist_data.resample('D', how=lambda x: x.mean(skipna=False))

如果缺少的小时数已经作为 NaN 存在。否则,您可以先将其重新采样为定期的每小时系列:

hist_data.resample('H').resample('D', how=lambda x: x.mean(skipna=False))

有一个例子的长答案。使用一些虚拟数据(我在某一天插入 NaN):

In [77]: hist_data = pd.Series(np.random.randn(72), index=pd.date_range('2016-01-01', periods=72, freq='H'))

In [78]: hist_data
Out[78]:
2016-01-01 00:00:00 -0.717624
2016-01-01 01:00:00 0.029151
2016-01-01 02:00:00 0.535843
...
2016-01-03 21:00:00 0.659923
2016-01-03 22:00:00 -1.085640
2016-01-03 23:00:00 0.571347
Freq: H, dtype: float64

In [80]: hist_data.iloc[30] = np.nan

count可以看到第二天确实少了一个值:

In [81]: hist_data.resample('D', how='count')
Out[81]:
2016-01-01 24
2016-01-02 23
2016-01-03 24
Freq: D, dtype: int64

默认情况下,'mean' 将忽略此 NaN 值:

In [83]: hist_data.resample('D', how='mean')
Out[83]:
2016-01-01 0.106537
2016-01-02 -0.112774
2016-01-03 -0.292248
Freq: D, dtype: float64

但是您可以使用 skipna 关键字参数更改此行为:

In [82]: hist_data.resample('D', how=lambda x: x.mean(skipna=False))
Out[82]:
2016-01-01 0.106537
2016-01-02 NaN
2016-01-03 -0.292248
Freq: D, dtype: float64

关于python - 将每小时 Pandas 系列截断为全天,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34190417/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com