gpt4 book ai didi

python - 具有分类变量组合的 GroupBy

转载 作者:太空宇宙 更新时间:2023-11-03 17:12:57 26 4
gpt4 key购买 nike

假设我有数据:

pd.DataFrame({'index': ['a','b','c','a','b','c'], 'column': [1,2,3,4,1,2]}).set_index(['index'])

给出:

       column
index
a 1
b 2
c 3
a 4
b 1
c 2

然后要获取每个子组的平均值:

df.groupby(df.index).mean()

column
index
a 2.5
b 1.5
c 2.5

但是,我一直试图在不不断循环和切片数据的情况下实现的是如何获得子组对的平均值?

例如,a & b 的平均值是 2?就好像他们的值(value)观结合在一起一样。

输出类似于:

       column
index
a & a 2.5
a & b 2.0
a & c 2.5
b & b 1.5
b & c 2.0
c & c 2.5

最好这涉及操作“groupby”中的参数,但事实上,我不得不诉诸循环和切片。能够在某个时刻构建子组的所有组合。

最佳答案

三年后我重新审视了这个问题,并提出了该问题的通用解决方案。

它正在这个开源库中使用,这就是为什么我现在能够做到这一点 here它适用于任意数量的索引,并使用 numpy 矩阵广播在它们上创建组合

首先,这不是一个有效的数据帧。索引不是唯一的。让我们向该对象添加另一个索引并使其成为一个系列:

df = pd.DataFrame({
'unique': [1, 2, 3, 4, 5, 6],
'index': ['a','b','c','a','b','c'],
'column': [1,2,3,4,1,2]
}).set_index(['unique','index'])
s = df['column']

让我们取消该索引的堆栈:

>>> idxs = ['index'] # set as variable to be used later on
>>> unstacked = s.unstack(idxs)
column
index a b c
unique
1 1.0 NaN NaN
2 NaN 2.0 NaN
3 NaN NaN 3.0
4 4.0 NaN NaN
5 NaN 1.0 NaN
6 NaN NaN 2.0
>>> vals = unstacked.values
array([[ 1., nan, nan],
[ nan, 2., nan],
[ nan, nan, 3.],
[ 4., nan, nan],
[ nan, 1., nan],
[ nan, nan, 2.]])
>>> sum = np.nansum(vals, axis=0)
>>> count = (~np.isnan(vals)).sum(axis=0)
>>> mean = (sum + sum[:, np.newaxis]) / (count + count[:, np.newaxis])
array([[ 2.5, 2. , 2.5],
[ 2. , 1.5, 2. ],
[ 2.5, 2. , 2.5]])

现在重新创建输出数据帧:

>>> new_df = pd.DataFrame(mean, unstacked.columns, unstacked.columns.copy())
index_ a b c
index
a 2.5 2.0 2.5
b 2.0 1.5 2.0
c 2.5 2.0 2.5
>>> idxs_ = [ x+'_' for x in idxs ]
>>> new_df.columns.names = idxs_
>>> new_df.stack(idxs_, dropna=False)
index index_
a a 2.5
b 2.0
c 2.5
b a 2.0
b 1.5
c 2.0
c a 2.5
b 2.0
c 2.5

关于python - 具有分类变量组合的 GroupBy,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33915638/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com