python - 具有组条件的 Pandas 自定义聚合函数，可能吗？-6ren

python - 具有组条件的 Pandas 自定义聚合函数，可能吗？

转载作者：行者123 更新时间：2023-12-04 01:01:14

28

4

我有以下数据框:

df = pd.DataFrame(
  [{'price': 22, 'weight': 1, 'product': 'banana', },
  {'price': 20, 'weight': 2, 'product': 'apple', },
  {'price': 18, 'weight': 2, 'product': 'car', },
  {'price': 100, 'weight': 1, 'product': 'toy', },
  {'price': 27, 'weight': 1, 'product': 'computer', },
  {'price': 200, 'weight': 1, 'product': 'book', },
  {'price': 200.5, 'weight': 3, 'product': 'mouse', },
  {'price': 202, 'weight': 3, 'product': 'door', },]
)

我必须做的是按连续价格分组，其中它们之间的差异是否小于阈值(比如 2.0)。之后，我必须仅对“小于阈值”的组应用以下聚合，否则不应聚合该组:

price 应该是 price 和 weight 之间的加权平均值
权重应该是最大值
product应该是字符串拼接

到目前为止我做了什么(一步一步):

我按价格升序对数据框进行排序(以获得连续的值)

df.sort_values(by=['price'], inplace=True)

    price  weight   product
2   18.0       2       car
1   20.0       2     apple
0   22.0       1    banana
4   27.0       1  computer
3  100.0       1       toy
5  200.0       1      book
6  200.5       3     mouse
7  202.0       3      door

获取升序和降序价格之间的差异以检测连续价格

df['asc_diff'] = df['price'].diff(periods=1)
df['desc_diff'] = df['price'].diff(periods=-1).abs()

    price  weight   product  asc_diff  desc_diff
2   18.0       2       car       NaN        2.0
1   20.0       2     apple       2.0        2.0
0   22.0       1    banana       2.0        5.0
4   27.0       1  computer       5.0       73.0
3  100.0       1       toy      73.0      100.0
5  200.0       1      book     100.0        0.5
6  200.5       3     mouse       0.5        1.5
7  202.0       3      door       1.5        NaN

合并 asc_diff 和 desc_diff 列以删除 NaN 并创建连续区域

df['asc_diff'] = df['asc_diff'].combine_first(df['desc_diff'])
df['asc_diff'] = df[['asc_diff', 'desc_diff']].min(axis=1).abs()
df['asc_diff'] = df['asc_diff'] <= 2.0
df = df.drop(columns=['desc_diff'])

    price  weight   product  asc_diff
2   18.0       2       car      True
1   20.0       2     apple      True
0   22.0       1    banana      True
4   27.0       1  computer     False
3  100.0       1       toy     False
5  200.0       1      book      True
6  200.5       3     mouse      True
7  202.0       3      door      True

创建群组

g = df.groupby((df['asc_diff'].shift() != df['asc_diff']).cumsum())
for k, v in g:
    print(f'[group {k}]')
    print(v)

[group 1]
   price  weight product  asc_diff
2   18.0       2     car      True
1   20.0       2   apple      True
0   22.0       1  banana      True
[group 2]
   price  weight   product  asc_diff
4   27.0       1  computer     False
3  100.0       1       toy     False
[group 3]
   price  weight product  asc_diff
5  200.0       1    book      True
6  200.5       3   mouse      True
7  202.0       3    door      True

到目前为止一切顺利，但当我不得不汇总时，问题来了:

def product_join(x):
    return ' '.join(x)
g.agg({'weight': 'max', 'product': product_join})

           weight           product
asc_diff                          
1              2  car apple banana
2              1      computer toy
3              3   book mouse door

问题:

只有第 1 组和第 3 组应该聚合(但在代码中它适用于所有组)
即使使用自定义函数(例如 product_join)，我也无法访问其他列的值，因此我无法获取加权平均价格等信息。

我要实现的目标:

仅聚合第 1 组和第 3 组(其中 asc_diff 为真)并保持第 2 组完整
在 price 聚合函数中，我需要一个函数来访问两列(即 price 和 weight)以获得加权平均值<

提前致谢!

最佳答案

这建立在@Panwen Wang 的解决方案之上，并坚持使用 Pandas:

通过 cumsum 和 diff 获取连续的行:

temp = (df
        .sort_values('price')
        .assign(group = lambda df: df.price.diff().gt(2).cumsum())
       )

temp

   price  weight   product  group
2   18.0       2       car      0
1   20.0       2     apple      0
0   22.0       1    banana      0
4   27.0       1  computer      1
3  100.0       1       toy      2
5  200.0       1      book      3
6  200.5       3     mouse      3
7  202.0       3      door      3

创建一个自定义函数来获取加权平均值(您也可以使用 np.average，我只是想避免应用函数):

def weighted_mean(df, column_to_average, weights, by):
     df = df.copy()
     df = df.set_index(by)
     numerator = df[column_to_average].mul(df[weights]).sum(level=by)
     denominator = df[weights].sum(level=by)
     return numerator/denominator

计算结果:

(temp
 .assign(price = lambda df: df.group.map(weighted_mean))
 .groupby('group')
 .agg(price=('price','first'), 
      weight=('weight','max'), 
      product=('product', ' '.join))
 )
 
            price  weight           product
group                                      
0       19.600000       2  car apple banana
1       27.000000       1          computer
2      100.000000       1               toy
3      201.071429       3   book mouse door

关于python - 具有组条件的 Pandas 自定义聚合函数，可能吗？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/68135422/

28

4

0

文章推荐： sql - 使用 SQL Server Management Studio 添加新行？

文章推荐： cross-browser - 跨浏览器圆角(无图像)

文章推荐： javascript - React Formik 不适用于数字输入

c++ - 使用 TextPad/G++ 链接和编译 C++ 文件时出错，可能(可能)只是语法？
这很可能是我的语法错误，因为我对在 C++ 中使用多个文件和结构(特别是将结构传递给函数)还很陌生。这是三个文件: 主要.cpp: #include #include #include #inc
typescript - 类验证器的高级条件(可能)？
我有 TypeScript NestJS 项目。我需要验证传入的 DTO 到我的 API。它可以被描述为“创建项目”，其中我们有建筑类型(房屋、公寓、花园)，并根据该类型我们需要定义: 房屋:楼层包
c# - 排除通用约束中的类型(可能？)
是否可以从可用于泛型参数的可能类型集中排除特定类型？如果是如何。例如 Foo() : where T != bool 将意味着除了类型 bool 之外的任何类型。编辑为什么？以下代码是我尝试强
javascript - 纹理未生成有效(可能)
我的 WebGL 体积光线转换应用程序即将完成。但是我发现了一个问题。我必须通过 2D 纹理模拟 3D 纹理。这不是问题。我正在用小切片创建一个巨大的纹理。巨大纹理的尺寸约为 4096x4096 像素
javascript - 返回顶部按钮问题(可能)？
我正在处理的网页上显示了一个返回顶部按钮。当您向下滚动时，有时单击它时，它会跳到顶部，然后跳回您在页面上的位置，然后像预期的那样平滑滚动到顶部。请记住，它并不总是这样做。这只是一个滞后或故障问题还是我
C#(可能)使用泛型
我对此还很陌生，所以请耐心等待。我有一个类，它具有三个属性:几个整数和一个用户定义对象的集合。 public class Response { public int num1 { get;
java - (可能)非常简单的Java多线程问题
我正在制作一款平台游戏，让玩家每 30 毫秒跳跃一次，并向上添加少量的力。我想我应该使用多线程，因为我之前已经做过一些，而且看起来很简单。无论如何，我尝试了这个: public void jump()
c# - 排除通用约束中的类型(可能？)
是否可以从可能的类型集中排除特定类型，这些类型可以在泛型参数中使用？如果是这样的话。例如 Foo() : where T != bool 表示除 bool 类型之外的任何类型。编辑为什么？以下
mysql - 查询中内部和外部连接在一起，可能
我正在尝试在单个查询中实现内部和外部联接，我不确定我的做法是正确还是错误，因为我不太擅长查询。就这样吧。我有以下表格。 hrs_residentials hrs_residential_utili
javascript - 冲突的脚本......可能
关于 my website ，有一段代码可以向页面添加几个元素。这段代码不是我可以编辑的东西，而且我对它放置这些元素的位置不满意，因为它弄乱了我的一些布局。所以我想出了一个小的 jQuery 来将它们
Postgresql:以下选择是否合理/可能？
一位客户希望我创建一个数据集，如下所示。我不知道这是否可能或合乎逻辑。我有表parent: id name ------- ------- 1 parent1 2
javascript - 检测其他打开的网站甚至应用程序的数量(可能)？
这可能吗？google 好像没有这方面的资料.. 这样，如果用户在另一个网站上播放视频或歌曲，我的音量就会自动减小最佳答案不，这是不可能的。如果可能的话，它必须是特定于浏览器的，但我不认为这种情
javascript - 响应式设计而不是此示例的自适应设计 - 可能
所以我正在尝试制作响应式页面。问题是为什么它归结为移动数据需要位于列表中。我会用一些示例代码来解释所以这可能是桌面上的输出 option1
html - 将鼠标悬停在(可能？)
当您将鼠标悬停在a 元素上时，是否可以删除url？这就是我的意思: 最佳答案一种选择是使用一些 JavaScript。删除 href=来自的属性标签，取而代之的是 onclick=...
algorithm - (可能)一个线段树应用
我已经考虑了几个小时，但我无法取得太大进展。它是这样的: You have an array of size n and q queries. Each query is of the form (l
android - 脚本运行速度太快了!可能
我一直在尝试编写一个脚本来强化 android。我没有成功! 我正在通过模拟器运行一个 AVD，并且已经用我加载的 android shell 和 bash shell 试过了。正如您将在下面看到的那
excel - InStr 值数组(可能？)
Private Sub Workbook_Open() Dim WBname As String WBname = ThisWorkbook.name If Not InStr(WBname, "te
scala - Spark 卡在删除广播变量(可能)
Spark 2.0.0-预览版我们有一个应用程序使用了相当大的广播变量。我们在大型 EC2 实例上运行它，因此部署处于客户端模式。广播变量是一个巨大的 Map[String, Array[Strin
regex - 带有xpath或regex的R中的Web抓取(可能)格式不正确的HTML
我正在尝试从此link中提取摘要。但是，我无法仅提取摘要的内容。到目前为止，这是我完成的工作： url <- "http://www.scielo.br/scielo.php?script=sci_a
asp.net - 将ModalPopup移动到IFrame之外。可能？
我的主页中有一个iframe。 iframe页面中有一个modalpopup。因此，当显示modalpopup时，modalpopup的父级是iframe主体和主页父级主体。因此，覆盖层仅覆盖ifra

首页

博学

6Ren·AI

商城

python - 具有组条件的 Pandas 自定义聚合函数，可能吗？