gpt4 book ai didi

python - 如何将非重叠数据帧矢量化为重叠移位数据帧?

转载 作者:行者123 更新时间:2023-12-04 08:28:00 26 4
gpt4 key购买 nike

我想将常规数据帧转换为具有重叠和移位的多索引数据帧。
例如,输入数据框是这样的示例代码:

import pandas as pd
import numpy as np
df = pd.DataFrame(data=np.arange(0, 12).reshape(-1, 2), columns=['d1', 'd2'], dtype=float)
df.index.name = 'idx'
print(df)
输出:
       d1    d2
idx
0 0.0 1.0
1 2.0 3.0
2 4.0 5.0
3 6.0 7.0
4 8.0 9.0
5 10.0 11.0
我想输出的是:让它按批次重叠并每次移动一行(添加一列 batchid 来标记每个类次),像这样(batchsize=4):
               d1    d2
idx batchid
0 0 0.0 1.0
1 0 2.0 3.0
2 0 4.0 5.0
3 0 6.0 7.0
1 1 2.0 3.0
2 1 4.0 5.0
3 1 6.0 7.0
4 1 8.0 9.0
2 2 4.0 5.0
3 2 6.0 7.0
4 2 8.0 9.0
5 2 10.0 11.0
我目前的工作:
我可以让它与迭代一起工作并将它们连接在一起。但这需要很多时间。
batchsize = 4
ds, ids = [], []
idx = df.index.values
for bi in range(int(len(df) - batchsize + 1)):
ids.append(idx[bi:bi+batchsize])
for k, idx in enumerate(ids):
di = df.loc[pd.IndexSlice[idx], :].copy()
di['batchid'] = k
ds.append(di)
res = pd.concat(ds).fillna(0)
res.set_index('batchid', inplace=True, append=True)
有没有办法矢量化和加速这个过程?
谢谢。

最佳答案

首先,我们创建一个“掩码”,它会告诉我们哪些元素进入哪个批次 id

nrows = len(df)
batchsize = 4
mask_columns = {i:np.pad([1]*batchsize,(i,nrows-batchsize-i)) for i in range(nrows-batchsize+1)}
mask_df = pd.DataFrame(mask_columns)
df = df.join(mask_df)
这为 df 添加了几列:

idx d1 d2 0 1 2
----- ---- ---- --- --- ---
0 0 1 1 0 0
1 2 3 1 1 0
2 4 5 1 1 1
3 6 7 1 1 1
4 8 9 0 1 1
5 10 11 0 0 1
这现在看起来像一个带有“傻瓜”的 df,我们需要“反转”傻瓜:
df2 = df.set_index(['d1','d2'], drop=True)
df2[df2==1].stack().reset_index().drop(0,1).sort_values('level_2').rename(columns = {'level_2':'batchid'})
产生
      d1    d2    batchid
-- ---- ---- ---------
0 0 1 0
1 2 3 0
3 4 5 0
6 6 7 0
2 2 3 1
4 4 5 1
7 6 7 1
9 8 9 1
5 4 5 2
8 6 7 2
10 8 9 2
11 10 11 2

关于python - 如何将非重叠数据帧矢量化为重叠移位数据帧?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/65166839/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com