gpt4 book ai didi

python - groupby 上的 pandas concat 数组

转载 作者:太空狗 更新时间:2023-10-29 19:28:37 26 4
gpt4 key购买 nike

我有一个 DataFrame,它是由 group by with 创建的:

agg_df = df.groupby(['X', 'Y', 'Z']).agg({
'amount':np.sum,
'ID': pd.Series.unique,
})

在我对 agg_df 应用一些过滤后,我想连接 ID

agg_df = agg_df.groupby(['X', 'Y']).agg({ # Z is not in in groupby now
'amount':np.sum,
'ID': pd.Series.unique,
})

但我在第二个 'ID': pd.Series.unique 处遇到错误:

ValueError: Function does not reduce

例如,第二个 groupby 之前的数据框是:

               |amount|  ID   |
-----+----+----+------+-------+
X | Y | Z | | |
-----+----+----+------+-------+
a1 | b1 | c1 | 10 | 2 |
| | c2 | 11 | 1 |
a3 | b2 | c3 | 2 | [5,7] |
| | c4 | 7 | 3 |
a5 | b3 | c3 | 12 | [6,3] |
| | c5 | 17 | [3,4] |
a7 | b4 | c6 | 2 | [8,9] |

预期的结果应该是

          |amount|  ID       |
-----+----+------+-----------+
X | Y | | |
-----+----+------+-----------+
a1 | b1 | 21 | [2,1] |
a3 | b2 | 9 | [5,7,3] |
a5 | b3 | 29 | [6,3,4] |
a7 | b4 | 2 | [8,9] |

最终 ID 的顺序并不重要。

编辑:我想出了一个解决方案。但它不是很优雅:

def combine_ids(x):
def asarray(elem):
if isinstance(elem, collections.Iterable):
return np.asarray(list(elem))
return elem

res = np.array([asarray(elem) for elem in x.values])
res = np.unique(np.hstack(res))
return set(res)

agg_df = agg_df.groupby(['X', 'Y']).agg({ # Z is not in in groupby now
'amount':np.sum,
'ID': combine_ids,
})

编辑2:另一个适用于我的解决方案是:

combine_ids = lambda x: set(np.hstack(x.values))

编辑 3:由于 Pandas 聚合函数的实现,似乎无法避免 set() 作为结果值。详见https://stackoverflow.com/a/16975602/3142459

最佳答案

如果您可以使用集合作为您的类型(我可能会这样做),那么我会选择:

agg_df = df.groupby(['x','y','z']).agg({
'amount': np.sum, 'id': lambda s: set(s)})
agg_df.reset_index().groupby(['x','y']).agg({
'amount': np.sum, 'id': lambda s: set.union(*s)})

...这对我有用。出于某种原因,lambda s: set(s) 有效,但 set 无效(我猜 pandas 某处没有正确地进行 duck-typing)。

如果您的数据很大,您可能需要以下内容而不是 lambda s: set.union(*s):

from functools import reduce
# can't partial b/c args are positional-only
def cheaper_set_union(s):
return reduce(set.union, s, set())

关于python - groupby 上的 pandas concat 数组,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32606369/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com