gpt4 book ai didi

python - 在 Pandas 中同步两个大数据帧的最有效方法是什么?

转载 作者:太空宇宙 更新时间:2023-11-04 09:01:13 24 4
gpt4 key购买 nike

我想同步两个非常长的数据帧,在这个用例中性能是关键。这两个数据帧使用日期时间或时间戳按时间顺序索引(应该尽可能快地利用这一点)。

本例中提供了一种同步方式:

import pandas as pd
df1=pd.DataFrame({'A':[1,2,3,4,5,6], 'B':[1,5,3,4,5,7]}, index=pd.date_range('20140101 101501', freq='u', periods=6))
df2=pd.DataFrame({'D':[10,2,30,4,5,10], 'F':[1,5,3,4,5,70]}, index=pd.date_range('20140101 101501.000003', freq='u', periods=6))

# synch data frames
df3=df1.merge(df2, how='outer', right_index=True, left_index=True).fillna(method='ffill')

我的问题是这是否是最有效的方法?如果有更快的方法来解决此任务,我准备探索其他解决方案(例如使用 numpy 或 cython)。

谢谢

注意:时间戳通常不是等距的(如上例所示),该方法在这种情况下也应该有效

阅读答案后发表评论

我认为有很多用例既没有对齐也没有合并或加入帮助。关键是不要使用与数据库相关的语义来进行对齐(我认为这对于时间序列来说并不那么相关)。对我来说,对齐意味着将系列 A 映射到 B 并有一种方法来处理缺失值(通常是采样和保持方法),对齐和连接会导致不需要的效果,例如由于连接而重复几个时间戳。我仍然没有完美的解决方案,但 np.searchsorted 似乎可以提供帮助(这比使用多次调用 join/align 来做我需要的要快得多)。到目前为止,我找不到 pandas 方法来执行此操作。

我如何将 A 映射到 B 以便 B 使结果具有 A 和 B 的所有时间戳但没有重复(除了那些已经在 A 和 B 中的时间戳)?

另一个典型的用例是采样和保持同步,它可以通过如下有效的方式解决(将 A 与 B 同步,即为 A 中的每个时间戳取 B 中的相应值:

idx=np.searchsorted(B.index.values, A.index.values, side='right')-1
df=A.copy()
for i in B:
df[i]=B[i].ix[idx].values

结果 df 包含 A 的相同索引和 B 中的同步值。

有没有一种有效的方法可以直接在 pandas 中做这些事情?

最佳答案

如果需要同步,使用align,文档是here .否则合并是一个不错的选择。

In [18]: N=100000

In [19]: df1=pd.DataFrame({'A':[1,2,3,4,5,6]*N, 'B':[1,5,3,4,5,7]*N}, index=pd.date_range('20140101 101501', freq='u', periods=6*N))

In [20]: df2=pd.DataFrame({'D':[10,2,30,4,5,10]*N, 'F':[1,5,3,4,5,70]*N}, index=pd.date_range('20140101 101501.000003', freq='u', periods=6*N))

In [21]: %timeit df1.merge(df2, how='outer', right_index=True, left_index=True).fillna(method='ffill')
10 loops, best of 3: 69.3 ms per loop

In [22]: %timeit df1.align(df2)
10 loops, best of 3: 36.5 ms per loop

In [24]: pd.set_option('max_rows',10)

In [25]: x, y = df1.align(df2)

In [26]: x
Out[26]:
A B D F
2014-01-01 10:15:01 1 1 NaN NaN
2014-01-01 10:15:01.000001 2 5 NaN NaN
2014-01-01 10:15:01.000002 3 3 NaN NaN
2014-01-01 10:15:01.000003 4 4 NaN NaN
2014-01-01 10:15:01.000004 5 5 NaN NaN
... .. .. .. ..
2014-01-01 10:15:01.599998 5 5 NaN NaN
2014-01-01 10:15:01.599999 6 7 NaN NaN
2014-01-01 10:15:01.600000 NaN NaN NaN NaN
2014-01-01 10:15:01.600001 NaN NaN NaN NaN
2014-01-01 10:15:01.600002 NaN NaN NaN NaN

[600003 rows x 4 columns]

In [27]: y
Out[27]:
A B D F
2014-01-01 10:15:01 NaN NaN NaN NaN
2014-01-01 10:15:01.000001 NaN NaN NaN NaN
2014-01-01 10:15:01.000002 NaN NaN NaN NaN
2014-01-01 10:15:01.000003 NaN NaN 10 1
2014-01-01 10:15:01.000004 NaN NaN 2 5
... .. .. .. ..
2014-01-01 10:15:01.599998 NaN NaN 2 5
2014-01-01 10:15:01.599999 NaN NaN 30 3
2014-01-01 10:15:01.600000 NaN NaN 4 4
2014-01-01 10:15:01.600001 NaN NaN 5 5
2014-01-01 10:15:01.600002 NaN NaN 10 70

[600003 rows x 4 columns]

关于python - 在 Pandas 中同步两个大数据帧的最有效方法是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25228168/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com