Python Pandas 如何将 groupby 操作结果分配回父数据框中的列？-6ren

Python Pandas 如何将 groupby 操作结果分配回父数据框中的列？

转载作者：IT老高更新时间：2023-10-28 21:39:22

我在 IPython 中有以下数据框，其中每一行都是一个股票:

In [261]: bdata
Out[261]:
<class 'pandas.core.frame.DataFrame'>
Int64Index: 21210 entries, 0 to 21209
Data columns:
BloombergTicker      21206  non-null values
Company              21210  non-null values
Country              21210  non-null values
MarketCap            21210  non-null values
PriceReturn          21210  non-null values
SEDOL                21210  non-null values
yearmonth            21210  non-null values
dtypes: float64(2), int64(1), object(4)

我想应用一个 groupby 操作，计算“年月”列中每个日期的所有事物的上限加权平均返回。

这按预期工作:

In [262]: bdata.groupby("yearmonth").apply(lambda x: (x["PriceReturn"]*x["MarketCap"]/x["MarketCap"].sum()).sum())
Out[262]:
yearmonth
201204      -0.109444
201205      -0.290546

但是我想将这些值“广播”回原始数据框中的索引，并将它们保存为日期匹配的常量列。

In [263]: dateGrps = bdata.groupby("yearmonth")

In [264]: dateGrps["MarketReturn"] = dateGrps.apply(lambda x: (x["PriceReturn"]*x["MarketCap"]/x["MarketCap"].sum()).sum())
---------------------------------------------------------------------------
TypeError                                 Traceback (most recent call last)
/mnt/bos-devrnd04/usr6/home/espears/ws/Research/Projects/python-util/src/util/<ipython-input-264-4a68c8782426> in <module>()
----> 1 dateGrps["MarketReturn"] = dateGrps.apply(lambda x: (x["PriceReturn"]*x["MarketCap"]/x["MarketCap"].sum()).sum())

TypeError: 'DataFrameGroupBy' object does not support item assignment

我意识到这个幼稚的任务不应该奏效。但是，将 groupby 操作的结果分配到父数据框上的新列中的“正确”Pandas 习语是什么？

最后，我想要一个名为“MarketReturn”的列，而不是所有与 groupby 操作的输出具有匹配日期的索引的重复常量值。

实现此目的的一个技巧如下:

marketRetsByDate  = dateGrps.apply(lambda x: (x["PriceReturn"]*x["MarketCap"]/x["MarketCap"].sum()).sum())

bdata["MarketReturn"] = np.repeat(np.NaN, len(bdata))

for elem in marketRetsByDate.index.values:
    bdata["MarketReturn"][bdata["yearmonth"]==elem] = marketRetsByDate.ix[elem]

但这很慢，很糟糕，而且不符合 Python 风格。

最佳答案

In [97]: df = pandas.DataFrame({'month': np.random.randint(0,11, 100), 'A': np.random.randn(100), 'B': np.random.randn(100)})

In [98]: df.join(df.groupby('month')['A'].sum(), on='month', rsuffix='_r')
Out[98]:
           A         B  month       A_r
0  -0.040710  0.182269      0 -0.331816
1  -0.004867  0.642243      1  2.448232
2  -0.162191  0.442338      4  2.045909
3  -0.979875  1.367018      5 -2.736399
4  -1.126198  0.338946      5 -2.736399
5  -0.992209 -1.343258      1  2.448232
6  -1.450310  0.021290      0 -0.331816
7  -0.675345 -1.359915      9  2.722156

关于Python Pandas 如何将 groupby 操作结果分配回父数据框中的列？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/12200693/

文章推荐： android - 无法解析 : com. android.support :appcompat-v7:28. 0

文章推荐： c++ - 重复整数除以运行时常量值

IT老高

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

Python Pandas 如何将 groupby 操作结果分配回父数据框中的列？