gpt4 book ai didi

python - Groupby 与用户定义的函数 Pandas

转载 作者:IT老高 更新时间:2023-10-28 20:52:49 25 4
gpt4 key购买 nike

我了解将函数作为组键传递,每个索引值调用一次函数,返回值用作组名称。我不知道如何在列值上调用函数。

所以我可以这样做:

people = pd.DataFrame(np.random.randn(5, 5), 
columns=['a', 'b', 'c', 'd', 'e'],
index=['Joe', 'Steve', 'Wes', 'Jim', 'Travis'])
def GroupFunc(x):
if len(x) > 3:
return 'Group1'
else:
return 'Group2'

people.groupby(GroupFunc).sum()

这会将数据分成两组,其中一组的索引值长度为 3 或以下,另一组的索引值长度为 3 或以上。但是如何传递其中一个列值?例如,如果每个索引点的 d 列值大于 1。我意识到我可以执行以下操作:

people.groupby(people.a > 1).sum()

但我想知道如何在用户定义的函数中执行此操作以供将来引用。

类似:

def GroupColFunc(x):
if x > 1:
return 'Group1'
else:
return 'Group2'

但是我怎么调用它呢?我试过了

people.groupby(GroupColFunc(people.a))

和类似的变体,但这不起作用。

如何将列值传递给函数?我将如何传递多个列值,例如例如,是否按 people.a > people.b 分组?

最佳答案

要按 > 1 分组,您可以像这样定义函数:

>>> def GroupColFunc(df, ind, col):
... if df[col].loc[ind] > 1:
... return 'Group1'
... else:
... return 'Group2'
...

然后这样调用它

>>> people.groupby(lambda x: GroupColFunc(people, x, 'a')).sum()
a b c d e
Group2 -2.384614 -0.762208 3.359299 -1.574938 -2.65963

或者你可以只使用匿名函数:

>>> people.groupby(lambda x: 'Group1' if people['b'].loc[x] > people['a'].loc[x] else 'Group2').sum()
a b c d e
Group1 -3.280319 -0.007196 1.525356 0.324154 -1.002439
Group2 0.895705 -0.755012 1.833943 -1.899092 -1.657191

documentation 中所述, 你也可以通过提供标签的 Series 进行分组 -> 组名映射:

>>> mapping = np.where(people['b'] > people['a'], 'Group1', 'Group2')
>>> mapping
Joe Group2
Steve Group1
Wes Group2
Jim Group1
Travis Group1
dtype: string48
>>> people.groupby(mapping).sum()
a b c d e
Group1 -3.280319 -0.007196 1.525356 0.324154 -1.002439
Group2 0.895705 -0.755012 1.833943 -1.899092 -1.657191

关于python - Groupby 与用户定义的函数 Pandas,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19615760/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com