gpt4 book ai didi

python - Pandas 数据透视表最近邻

转载 作者:太空宇宙 更新时间:2023-11-03 18:41:56 25 4
gpt4 key购买 nike

解决方案

df = pd.read_csv('data.txt')
df['z-C+1'] = df.groupby(['a','b','d'])['z'].transform(lambda x:x.shift(+1))
df['z-C-1'] = df.groupby(['a','b','d'])['z'].transform(lambda x:x.shift(-1))
df['z-D+1'] = df.groupby(['a','b','c'])['z'].transform(lambda x:x.shift(+1))
df['z-D-1'] = df.groupby(['a','b','c'])['z'].transform(lambda x:x.shift(-1))

问题

我有一个按几个索引排序的 CSV。我特别感兴趣一个索引,并且我想保持表不变。我想做的就是添加额外的列,这是表的函数。因此,假设“v”是感兴趣的列。我想获取“z”列,并从表中其他位置添加更多“z”列,其中“c”=“c+1”和“c-1”和“d+1”、“d-1” ”,然后加入最后的那些。最后我想要相同的行数,但将“Z”列扩展到“Z.C-1.D”、“Z.C.D”、“Z.C+1.D”、“Z.C.D-1”列,“Z.C.D+1”。如果那有意义的话。我有困难。我尝试过pivot_table方法,这给我带来了一些启发,同时也增加了困惑。

如果这有帮助:将其视为矩阵中的一个点,我有一个自变量和因变量。我想为我观察到的每个位置提取邻近的自变量

这是我的示例 csv:

        a   b   c   d   v       z
10 1 15 42 0.90 5460
10 2 15 42 0.97 6500
10 1 16 42 1.04 7540
10 2 16 42 1.11 8580
10 1 15 43 1.18 9620
10 2 15 43 0.98 10660
10 1 16 43 1.32 3452
10 2 16 43 1.39 4561
11 1 15 42 0.54 5670
11 2 15 42 1.53 6779
11 1 16 42 1.60 7888
11 2 16 42 1.67 8997
11 1 15 43 1.74 10106
11 2 15 43 1.81 11215
11 1 16 43 1.88 12324
11 2 16 43 1.95 13433

我想要的输出:

        a   b   c   d   v       z       z[c-1]  z[c+1]  z[d-1]  z[d+1]
10 1 15 42 0.90 5460 Nan 7540 Nan 9620
10 2 15 42 0.97 6500 Nan 8580 Nan 10660
10 1 16 42 1.04 7540 5460 Nan Nan 3452
10 2 16 42 1.11 8580 6500 Nan Nan 4561
10 1 15 43 1.18 9620 Nan 3452 5460 Nan
10 2 15 43 0.98 10660 Nan 4561 6500 Nan
10 1 16 43 1.32 3452 9620 Nan 7540 Nan
10 2 16 43 1.39 4561 10660 Nan 8580 Nan
11 1 15 42 0.54 5670 Nan 7888 Nan 10106
11 2 15 42 1.53 6779 Nan 8997 Nan 11215
11 1 16 42 1.60 7888 5670 Nan Nan 12324
11 2 16 42 1.67 8997 6779 Nan Nan 13433
11 1 15 43 1.74 10106 Nan 12324 5670 Nan
11 2 15 43 1.81 11215 Nan 13433 6779 Nan
11 1 16 43 1.88 12324 10106 Nan 7888 Nan
11 2 16 43 1.95 13433 11215 Nan 8997 Nan

最佳答案

不知道我是否理解你的意思,但你可以使用 shift() 方法添加移位列,例如:

df['z-1'] = df.groupby('a')['z'].transform(lambda x:x.shift(-1))

更新

如果您想按值进行选择,可以使用apply():

def lkp_data(c,d,v):
d = df[(df['c'] == c) & (df['d'] == d) & (df['v'] == v)]['z']
return None if len(d) == 0 else d.values[0]

df['z[c-1]'] = df.apply(lambda x: lkp_data(x['c'] - 1, x['d'], x['v']), axis=1)
df['z[c+1]'] = df.apply(lambda x: lkp_data(x['c'] + 1, x['d'], x['v']), axis=1)
df['z[d-1]'] = df.apply(lambda x: lkp_data(x['c'], x['d'] - 1, x['v']), axis=1)
df['z[d+1]'] = df.apply(lambda x: lkp_data(x['c'], x['d'] + 1, x['v']), axis=1)

c d z v z[c-1] z[c+1] z[d-1] z[d+1]
0 15 42 5460 1 NaN 7540 NaN 9620
1 15 42 6500 2 NaN 8580 NaN 10660
2 16 42 7540 1 5460 NaN NaN 3452
3 16 42 8580 2 6500 NaN NaN 4561
4 15 43 9620 1 NaN 3452 5460 NaN
5 15 43 10660 2 NaN 4561 6500 NaN
6 16 43 3452 1 9620 NaN 7540 NaN
7 16 43 4561 2 10660 NaN 8580 NaN

但我认为,这个效率真的很低

关于python - Pandas 数据透视表最近邻,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20344516/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com