gpt4 book ai didi

python - 将 Pandas 中事件的时间序列的列中的值序列转换为行

转载 作者:行者123 更新时间:2023-12-01 03:53:44 24 4
gpt4 key购买 nike

我正在处理一个时间序列,其中包含按给定顺序发生的某些事件:A->B->C->D 并且我想创建一个新的DataFrame 将这些事件的时间作为列,即来自 DataFrame old_df:

    ev_type       ev_time
1 W 2012-05-27 02:06:01
2 A 2012-05-28 02:06:01
3 B 2012-05-28 03:06:01
4 C 2012-05-28 04:06:01
5 D 2012-05-28 02:06:03
6 K 2012-05-28 02:06:01
... ... ...................
60000 D 2016-01-01 01:01:01

我想获得df:

              A_time               B_time               C_time                D_time
1 2012-05-28 02:06:01 2012-05-28 03:06:01 2012-05-28 04:06:01 2012-05-28 04:06:01
... .... .... .... ....
5000 2015-05-28 02:06:01 2015-06-28 02:06:01 2015-07-28 02:06:01 2015-08-28 02:06:01

我所做的是

A_events = old_df.evtype == 'A'
df = old_df[A_events ].ev_time.to_frame()
df.rename(columns={"ev_time":"A_time"},inplace=True)
df.join(old_df[A_events.shift(1).fillna(False)].ev_time.shift(-1),axis=1)

但是最后一行不起作用,因为它不会更改索引。我能得到的最好的是

     A_time               B_time 
2 2012-05-28 02:06:01 NaT
3 NaT 2012-05-28 03:06:01

如何对齐两个系列?或者是否有更好的策略从 pandas 数据框中提取事件序列或模式?

编辑

按照下面@Stefan建议的代码,我的数据生成器是

df = pd.DataFrame(data={'ev_type': np.random.choice(list("ABCDWK"), size=100,replace=True), 'ev_time': pd.date_range(start=pd.datetime(2016,1,1),freq='M', periods=100)})

最佳答案

对于任何访问此问题寻找类似问题的人,我在这里报告我是如何解决它的。我不确定这是查找事件序列的最 Pythonic/内存效率的方法...

为了生成数据,我使用了 Stefan 建议的代码

size_of_df = 10000
df_old = pd.DataFrame(data={'ev_type': np.random.choice(list("ABCDWK"), size=size_of_df,replace=True), 'ev_time': pd.date_range(start=pd.datetime(2016,1,1),freq='h', periods=size_of_df)})

该序列不经常出现,因此 df 的长度必须足够大(或者你必须运气好)

df_old.head(5)

ev_time ev_type
0 2016-01-01 00:00:00 D
1 2016-01-01 01:00:00 D
2 2016-01-01 02:00:00 A
3 2016-01-01 03:00:00 C
4 2016-01-01 04:00:00 W

然后,我移动数据框并将其粘合,以连续获取所有事件

sequence = "ABCD"
evnt = pd.concat([df_old.shift(-ix) for ix,let in enumerate(list(sequence))],axis=1,keys=list(sequence))

并寻找序列

tmp_evt = evnt.xs('ev_type',level=1,axis=1)
tmp_seq = tmp_evt.apply(lambda x: x.str.cat(),axis=1)
tmp_seq.head()

0 DDAC
1 DACW
2 ACWK
3 CWKD
4 WKDA
dtype: object

bool_sequence = tmp_seq == 'ABCD'
col_name=dict(zip(list(sequence),[ let + "_time" for let in list(sequence)]))
evnt[bool_sequence].xs('ev_time',level=1,axis=1).rename(columns=col_name).head()


A_time B_time C_time \
1648 2016-03-09 16:00:00 2016-03-09 17:00:00 2016-03-09 18:00:00
2913 2016-05-01 09:00:00 2016-05-01 10:00:00 2016-05-01 11:00:00
3803 2016-06-07 11:00:00 2016-06-07 12:00:00 2016-06-07 13:00:00
3879 2016-06-10 15:00:00 2016-06-10 16:00:00 2016-06-10 17:00:00
4730 2016-07-16 02:00:00 2016-07-16 03:00:00 2016-07-16 04:00:00

D_time
1648 2016-03-09 19:00:00
2913 2016-05-01 12:00:00
3803 2016-06-07 14:00:00
3879 2016-06-10 18:00:00
4730 2016-07-16 05:00:00

关于python - 将 Pandas 中事件的时间序列的列中的值序列转换为行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37849073/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com