python - pandas 和 groupby : how to calculate weighted averages within an agg-6ren

python - pandas 和 groupby : how to calculate weighted averages within an agg

转载作者：行者123 更新时间：2023-12-01 02:32:00

26

4

我使用 groupby 和 agg 计算多个聚合函数，因为我需要针对不同变量使用不同的聚合函数，例如不是所有的总和，而是 x 的总和和平均值、y 的平均值等。

有没有办法使用 agg 计算加权平均值？我找到了很多例子，但没有一个带有 agg 的例子。

我可以手动计算加权平均值，如下面的代码所示(注意带**的行)，但我想知道是否有更优雅和直接的方法？

我可以创建自己的函数并将其与 agg 一起使用吗？

为了清楚起见，我完全理解还有其他解决方案，例如

Pandas DataFrame aggregate function using multiple columns
groupby weighted average and sum in pandas dataframe
Calculate weighted average with pandas dataframe
还有很多很多。但是，正如我所说，我不确定如何使用 agg 实现这些解决方案，并且我需要 agg，因为我需要将不同的聚合函数应用于不同的列(同样，不是所有的总和，但 x 的总和和平均值、y 的平均值等)。

import numpy as np
import pandas as pd
df= pd.DataFrame(np.random.randint(5,8,(1000,4)), columns=['a','b','c','d'])
**df['c * b']= df['c']* df['b']**
g = df.groupby('a').agg(
        {'b':['sum', lambda x: x.sum() / df['b'] .sum(), 'mean'],
              'c':['sum','mean'], 'd':['sum'],
              'c * b':['sum']})
g.columns = g.columns.map('_'.join)
**g['weighted average of c'] = g['c * b_sum'] / g['b_sum']**

最佳答案

有可能吗，但是很复杂:

np.random.seed(234)
df= pd.DataFrame(np.random.randint(5,8,(1000,4)), columns=['a','b','c','d'])

wm = lambda x: (x * df.loc[x.index, "c"]).sum() / x.sum()
wm.__name__ = 'wa'

f = lambda x: x.sum() / df['b'] .sum()
f.__name__ = '%'

g = df.groupby('a').agg(
        {'b':['sum', f, 'mean', wm],
         'c':['sum','mean'], 
         'd':['sum']})
g.columns = g.columns.map('_'.join)
print (g)

   d_sum  c_sum    c_mean  b_sum       b_%    b_mean      b_wa
a                                                             
5   2104   2062  5.976812   2067  0.344672  5.991304  5.969521
6   1859   1857  5.951923   1875  0.312656  6.009615  5.954667
7   2058   2084  6.075802   2055  0.342671  5.991254  6.085645

应用的解决方案:

def func(x):
#    print (x)
    b1 = x['b'].sum()
    b2 = x['b'].sum() / df['b'].sum()
    b3 = (x['b'] * x['c']).sum() / x['b'].sum()
    b4 = x['b'].mean()

    c1 = x['c'].sum()
    c2 = x['c'].mean()

    d1 = x['d'].sum()
    cols = ['b sum','b %','wa', 'b mean', 'c sum', 'c mean', 'd sum']
    return pd.Series([b1,b2,b3,b4,c1,c2,d1], index=cols)


g = df.groupby('a').apply(func)
print (g)
    b sum       b %        wa    b mean   c sum    c mean   d sum
a                                                                
5  2067.0  0.344672  5.969521  5.991304  2062.0  5.976812  2104.0
6  1875.0  0.312656  5.954667  6.009615  1857.0  5.951923  1859.0
7  2055.0  0.342671  6.085645  5.991254  2084.0  6.075802  2058.0

<小时/>

g.loc['total']=g.sum()
print (g)
        b sum       b %         wa     b mean   c sum     c mean   d sum
a                                                                       
5      2067.0  0.344672   5.969521   5.991304  2062.0   5.976812  2104.0
6      1875.0  0.312656   5.954667   6.009615  1857.0   5.951923  1859.0
7      2055.0  0.342671   6.085645   5.991254  2084.0   6.075802  2058.0
total  5997.0  1.000000  18.009832  17.992173  6003.0  18.004536  6021.0

关于python - pandas 和 groupby : how to calculate weighted averages within an agg，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/46714555/

26

4

0

文章推荐：以相反顺序访问 numpy 数组的 Pythonic 方法

文章推荐： python - Flask 中的猜数字游戏

elasticsearch - “filter and aggs”和 “filter in aggs”有什么区别
我有两种方法来汇总数据。首先，我过滤mysql数据并进行汇总其次，i aggs将数据过滤为aggs。如下: 我发现了不同的结果，我不知道为什么。有人可以解释吗？最佳答案从Docs By d
python pandas, DF.groupby().agg(), agg() 中的列引用
在一个具体问题上，假设我有一个 DataFrame DF word tag count 0 a S 30 1 the S 20 2 a T
pandas groupby agg function column/dtype error(PANDA GROUPAS BY AGG Function列/dtype错误)
我正在使用Python进行数据分析，但我遇到了部分CH的问题。9(数据聚合和分组操作)部分，介绍“使用函数分组”。。具体地说，如果我使用GroupBy对象方法或Numpy定义的函数，一切都会正常工作。
python - df.groupby(...).agg(set) 与 df.groupby(...).agg(lambda x : set(x)) 相比产生不同的结果
接听this question原来 df.groupby(...).agg(set) 和 df.groupby(...).agg(lambda x: set(x)) 正在产生不同的结果。数据: df
python - 字符串系列的最大 agg
如何在这样的字符串列中执行最大值？ dataframe = pandas.DataFrame.from_dict( { "DEP
elasticsearch - “aggs”查询的输出结果不正确
我有一个查询，用于查询给定日期时间窗口(即2017-02-17T15:00:00.000和2017-02-17T16:00:00.000之间)中的条目数。执行此查询时，我得到的结果不正确(最好说结果是
elasticsearch aggs 返回错误的计数
我正在尝试进行一些聚合查询并遇到一些问题。 GET /my_index/_search { "size" : 0, "aggs":{ "group_by":{ "terms": {
python - Pandas agg 根据数据类型定义指标
对于pandas agg，有没有办法根据数据类型指定聚合函数？例如，对象类型的所有列都获得“第一”，所有 float 获得“平均值”，等等？以避免必须输入所有列及其各自的聚合函数。示例数据: imp
scala - Spark agg 为多列收集单个列表
这是我当前的代码: pipe_exec_df_final_grouped = pipe_exec_df_final.groupBy("application_id").agg(collect_list
Python - Pandas groupby agg
我有一个简单的 dataframe (df)，如下所示: index Job Person 1 j1 Cathy 2 j2 Mark 3 j3 Cathy 4
elasticsearch - Elasticsearch-术语中的buckets_path agg
我正在尝试对术语(count_bucket)进行AVG计数，但是出现错误: "buckets_path must reference either a number value or a single
elasticsearch - 响应中未保留的 agg 名称的排序
我正在执行弹性查询并使用 REST 调用读取 java 代码中的响应。当我阅读响应时，字段的顺序 - 200、204、4xx、5xx 不会按照响应中的顺序返回。在下面找到示例请求 GET appl
ElasticSearch Max Agg 在文档的列表属性中的最低值
我希望对文档下的属性值进行 Max 聚合，该属性是复杂对象(键和值)的列表。这是我的数据: [{ "id" : "1", "listItems" : [
elasticsearch 使用 aggs 过滤数组数据
我使用 Elasticsearch 来存储我的生物数据。我尝试使用过滤后的 aggs 进行查询，但返回的数据不是我想要的。问题来自这样一个事实，即我为每个样本都有一个“d_”属性，它是一个数组。我
elasticsearch - 如何使用过滤器查询优化 Elasticsearch aggs
当我尝试运行此查询时，elasticsearch无法回答，并且发生大量缓存逐出(与字段缓存有关)。我不想在此查询中缓存任何字段，因为这是一个分析查询，我每天只运行一次。有什么办法可以在不使用字段缓存
python - DataFrame agg 作为一个系列
我想将 DataFrame.agg 的输出转换为一个系列，其中索引是列名称和 agg 函数名称的组合。看我有 In [132]: df = pd.DataFrame({ ...:
python - 如何将 agg 应用于具有根据级别不同功能的多索引的数据框？
我想根据索引的第二级对具有多重索引的数据帧应用不同的函数。例如，对于数据框: In [4]: df = pd.DataFrame({'a': [1,2,6,7],'b': [7,1,4,5]}, i
python - Pandas .agg 函数有哪些？
假设我有这样的代码: meanData = all_data.groupby(['Id'])[features].agg('mean') 这按'Id' 值对数据进行分组，选择所需的特征，并通过计算的'
python - groupby.agg 中的本福德定律测试函数
下面是我的数据框的一个小样本，它有 25000 奇数行长: In [58]: df Out[58]: Send_Agent Send_Amount 0 ADR000264 361
python - 在 agg 函数中聚合具有一个属性的多列
假设我有一个 pandas dataFrame (data_stores) 类似于以下内容: store| item1 | item2 | item3 ------------------------

首页

博学

6Ren·AI

商城

python - pandas 和 groupby : how to calculate weighted averages within an agg