gpt4 book ai didi

python - Pandas groupby : efficient conditional aggregation?

转载 作者:太空狗 更新时间:2023-10-30 01:27:41 24 4
gpt4 key购买 nike

我有一个包含各种列的数据框,并且想在每个组具有最小有效成员数的条件下计算组的平均值。我使用 groupby、filter 和 mean 尝试了以下操作。好像可以,但是我想知道是否有更有效的解决方案?

import pandas as pd
import numpy as np

df = pd.DataFrame({'id' : ['one', 'one', 'two', 'three', 'two',
'two', 'two', 'one', 'three', 'one'],
'idprop' : [1., 1., 2., 3., 2., # property corresponding to id
2., 2., 1., 3., 1.],
'x' : np.random.randn(10),
'y' : np.random.randn(10)})

# set a couple of x values to nan
s = df['x'].values
s[s < -0.6] = np.nan
df['x'] = s

g = df.groupby('id', sort=False)
# filter out small group(s) with less than 3 valid values in x
# result is a new dataframe
dff = g.filter(lambda d: d['x'].count() >= 3)

# this means we must group again to obtain the mean value of each filtered group
result = dff.groupby('id').mean()
print result
print type(result)

how to get multiple conditional operations after a Pandas groupby? 有一个相关问题但是,它仅按行值而不是组元素的数量“过滤”。转换为我的代码将是:

res2 = g.agg({'x': lambda d: df.loc[d.index, 'x'][d >= -0.6].sum()})

作为附带问题:是否有更有效的方法将低于或高于给定阈值的值设置为 NaN?当我使用 loc 尝试这个时,我的大脑变得扭曲了。

最佳答案

您可以使用 groupby apply 来实现此目的功能:

def mean_cond(dfg):
if dfg['x'].count() >= 3:
return dfg.mean()
return None

print df.groupby('id').apply(mean_cond).dropna()

这里的优点是分组过程只执行一次,这可能比在过滤器之后运行另一个 groupby 更有效。唯一的问题可能是,这会导致不符合条件的组在结果表中显示为 NaN。这很容易通过在最后添加 dropna 命令来解决。

关于python - Pandas groupby : efficient conditional aggregation?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37593107/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com