python - Python Pandas 中的通用 Groupby : Fast way-6ren

python - Python Pandas 中的通用 Groupby : Fast way

转载作者：行者123 更新时间：2023-12-04 12:16:18

25

4

终极问题
有没有办法做一个不依赖于 pd.groupby 的通用的、高性能的 groupby 操作？
输入

pd.DataFrame([[1, '2020-02-01', 'a'], [1, '2020-02-10', 'b'], [1, '2020-02-17', 'c'], [2, '2020-02-02', 'd'], [2, '2020-03-06', 'b'], [2, '2020-04-17', 'c']], columns=['id', 'begin_date', 'status'])`

   id  begin_date status
0   1  2020-02-01      a
1   1  2020-02-10      b
2   1  2020-02-17      c
3   2  2020-02-02      d
4   2  2020-03-06      b

期望输出

   id status  count  uniquecount
0   1      a      1            1
1   1      b      1            1
2   1      c      1            1
3   2      b      1            1
4   2      c      1            1

问题
现在，使用 Pandas 在 Python 中有一种简单的方法可以做到这一点。

df = df.groupby(["id", "status"]).agg(count=("begin_date", "count"), uniquecount=("begin_date", lambda x: x.nunique())).reset_index()
# As commented, omitting the lambda and replacing it with "begin_date", "nunique" will be faster. Thanks!

对于较大的数据集，此操作很慢，我会猜测并说 O(n²)。
缺乏普遍适用性的现有解决方案
现在，经过一些谷歌搜索，StackOverflow 上有一些替代解决方案，可以使用 numpy、iterrows 或其他不同的方式。
Faster alternative to perform pandas groupby operation
Pandas fast weighted random choice from groupby
还有一个很棒的:
Groupby in python pandas: Fast Way
这些解决方案通常旨在在我的示例中创建“计数”或“唯一计数”，基本上是聚合值。但是，不幸的是，总是只有一个聚合，而不是多个 groupby 列。
此外，不幸的是，他们从未解释如何将它们合并到分组数据帧中。
有没有办法使用 itertools (就像这个答案: Faster alternative to perform pandas groupby operation ，或者甚至更好这个答案: Groupby in python pandas: Fast Way )不仅返回系列“计数”，而且以分组形式返回整个数据框？
终极问题
有没有办法做一个不依赖于 pd.groupby 的通用的、高性能的 groupby 操作？
这看起来像这样:

from typing import List
def fastGroupby(df, groupbyColumns: List[str], aggregateColumns):
    # numpy / iterrow magic
    return df_grouped

df = fastGroupby(df, ["id", "status"], {'status': 'count',
                             'status': 'count'}

并返回所需的输出。

最佳答案

开水前groupby我建议首先评估您是否真正利用了 groupby必须提供。
去掉 lambda赞成内置pd.DataFrameGroupBy方法。
很多Series和 DataFrame方法实现为 pd.DataFrameGroupBy方法。你应该直接使用它们，而不是用 groupby 调用它们。 + apply(lambda x: ...)此外，对于许多计算，您可以将问题重新构建为对整个 DataFrame 进行一些矢量化操作，然后使用在 cython 中实现的 groupby 方法。这会很快。
一个常见的例子是找到 'Y' 的比例。群内回答。一个直接的方法是检查每个组内的条件，然后得到比例:

N = 10**6
df = pd.DataFrame({'grp': np.random.choice(range(10000), N),
                   'answer': np.random.choice(['Y', 'N'], N)})

df.groupby('grp')['answer'].apply(lambda x: x.eq('Y').mean())

以这种方式思考问题需要 lambda ，因为我们在groupby内部做了两个操作；检查条件然后平均。这个完全相同的计算可以被认为是首先检查整个 DataFrame 的条件，然后计算组内的平均值:

df['answer'].eq('Y').groupby(df['grp']).mean()

这是一个很小的变化，但后果却是巨大的，随着群体数量的增加， yield 会越来越大。

%timeit df.groupby('grp')['answer'].apply(lambda x: x.eq('Y').mean())
#2.32 s ± 99.9 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

%timeit df['answer'].eq('Y').groupby(df['grp']).mean()
#82.8 ms ± 995 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)

添加 sort=False作为论据
默认 groupby对键的输出进行排序。如果没有理由对输出进行排序，您可以通过指定 sort=False 获得轻微的 yield 。

添加 observed=True作为论据
如果分组键是分类的，它将重新索引到所有可能的组合，即使对于从未出现在您的 DataFrame 中的组也是如此。如果这些都不重要，将它们从输出中移除将大大提高速度。

对于您的示例，我们可以检查差异。切换到 pd.DataFrameGroupBy.nunique 获得巨大 yield 删除排序会增加一点额外的速度。两者的结合提供了一个“相同”的解决方案(直到排序)，并且对于许多组来说快了近 100 倍。

import perfplot
import pandas as pd
import numpy

def agg_lambda(df):
    return df.groupby(['id', 'status']).agg(uniquecount=('Col4', lambda x: x.nunique()))
    
def agg_nunique(df):
    return df.groupby(['id', 'status']).agg(uniquecount=('Col4', 'nunique'))

def agg_nunique_nosort(df):
    return df.groupby(['id', 'status'], sort=False).agg(uniquecount=('Col4', 'nunique'))

perfplot.show(
    setup=lambda N: pd.DataFrame({'Col1': range(N),
                       'status': np.random.choice(np.arange(N), N),
                       'id': np.random.choice(np.arange(N), N),
                       'Col4': np.random.choice(np.arange(N), N)}),
    kernels=[
        lambda df: agg_lambda(df),
        lambda df: agg_nunique(df),
        lambda df: agg_nunique_nosort(df),
    ],
    labels=['Agg Lambda', 'Agg Nunique', 'Agg Nunique, No sort'],
    n_range=[2 ** k for k in range(20)],
    # Equality check same data, just allow for different sorting
    equality_check=lambda x,y: x.sort_index().compare(y.sort_index()).empty,
    xlabel="~ Number of Groups"
)

关于python - Python Pandas 中的通用 Groupby : Fast way，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/63306888/

25

4

0

文章推荐： scala - 如何在任何代码点查看所有可用的隐式及其类型？

文章推荐： webpack - Gatsby/webpack - 未定义 WebpackError 窗口 - 在哪里？

文章推荐： asp.net - SignalR 与 Angular 10 和 ASP.NET

MySQL全文搜索: need fast insert and fast search
我有一个 mysql 数据库，用户可以在其中输入文本。然后他们需要能够搜索此文本。我刚刚实现了 mysql 全文搜索，它确实使搜索速度快了很多。然而，毫不奇怪，它使插入变慢了。但令我惊讶的是速度慢了
c - 如何知道带有 TCP Fast Open 的 sendto() 是否真的使用了 Fast Open？
我在 Linux 3.15 机器上写了一个 TCP 客户端，它能够使用 TCP Fast Open: status = sendto(sd, (const void *) data,
c++ - "fast"或 "normal"在 "free(): invalid next size (fast)"中是什么意思？
“free(): invalid next size (fast)”中的“fast”或“normal”是什么意思:谁能解释一下这是什么意思/暗示或在哪里可以找到答案？最佳答案您看到的错误消息表明在
c++ - 解码像 FAST 这样的数据协议(protocol)的快速方法是什么？在 FAST 中，数据以字节编码，位作为存在标志？
像 FAST 这样的数据编码协议(protocol)非常巧妙地减少了需要发送的数据量。本质上，一个人得到一个 char*，读取前几个字节作为整数会给你一个 ID 号，它指向你如何解码其余字节的说明(即
wcf - "Fast"WCF服务的集成测试
语境我非常喜欢Roy Osherove所说的“快速集成测试”。这是集成测试，它可以: 严格在您的开发箱上执行。无需单独的环境。尽管正在进行集成测试，但此类测试通常是通过您的单元测试工具(NUnit
performance - "Fast"衡量代码执行时间的方法
我的代码中有一些子例程，我需要测量它们的执行时间。让我们假设例程在极端情况下每秒被调用 10-100 次。在 Fortran 中有许多方法可以测量时间，但由于调用的频率，我需要一种开销最低的方法。时
Java : Counting so fast?
我的电脑中的这段代码在java中执行了1秒，但在C中执行了20多秒。java是如何执行的？ int a[] = new int[50000] ; for(int i = 0 ; i < 50000 ;
fast-ai - 如何将fastai表格模型应用于新数据？
我用 fastai.tabular 训练了一个模型。现在，我有一个合适的学习器。最终，模型将应用于新数据，而不仅仅是在训练集上拟合并在测试集上进行评估等。我尝试了不同的方法，所有这些都导致了错误或一些
performance - "fast"到底是怎样的现代CPU？
当我曾经对嵌入式系统和早期 8/16 位 PC(6502、68K、8086)进行编程时，我对每条指令执行所需的确切时间(以纳秒或微秒为单位)有很好的把握。根据系列的不同，一个(或四个)周期相当于一次“
软件中的位级操作可以是 "fast"吗？
让我立即澄清一下这个听起来很温和的标题。这实际上已经困扰我很长一段时间了，尽管感觉这是一个非常基本的问题。许多语言让开发人员玩弄位，从而给人一种效率错误的印象，例如 bool.h据我了解，C hea
Java Fast 生成带零的字符串
我有一个代码。 private static String generateString(int size) { StringBuffer s = new StringBuffer();
java - "Fast"Java中的整数幂
[简短回答:糟糕的基准测试方法。你会认为我现在已经想通了。] 问题表现为“找到一种快速计算 x^y 的方法，其中 x 和 y 是正整数”。典型的“快速”算法如下所示: public long fast
java 矩阵乘法 (FAST)
我必须乘以 2(大部分时间)稀疏矩阵。这些矩阵相当小(大约 10k*10k)，我有两个至强四核和一个线程来完成这项工作？是否有任何用于多线程 moltiplication 的快速库？还有其他建议吗？
MongoDB 地理空间索引 : how fast is it?
我正在对约 40K 文档的集合执行 where in box 查询。查询耗时约 0.3 秒，获取文档耗时约 0.6 秒(结果集中约有 10K 文档)。文档相当小(每个约 100 字节)，我限制结果只
optimization - R:FAST 多变量优化包？
我正在寻找 4 个变量的标量函数的局部最小值，并且我对变量有范围约束(“框约束”)。函数导数没有封闭形式，因此需要解析导数函数的方法是不可能的。我已经用 optim 尝试了几个选项和控制参数功能，但所
Perl CGI::Fast 关闭连接而不发送数据
我正在尝试部署一个使用 CGI::Application 的 Perl 应用程序通过 Nginx，它们之间使用 FastCGI 进行通信。 Nginx 不断返回“502 Bad Gateway”，错误
C++ mmap到 "fast"读取与gzip文件的耦合
我对 C++ 很陌生，所以很抱歉，如果我问一些愚蠢的问题，但我在网上找不到答案(只有一篇引用 python ( Can mmap and gzip collaborate? ) 的帖子)，试图看看是否
c++ - OpenCV FAST TYPE_5_8
我正在试验不同类型的 OpenCV 的 FAST 检测器。可用的类型有: TYPE_5_8, TYPE_7_12, TYPE_9_16 最后一个是默认的，用这张照片描述: 我假设 TYPE_7_12
Android OpenCV FAST 角点检测过滤
我正在尝试开发一个 android 应用程序，它应该分析来自相机的帧并检测角落。我的目标是检测当前棋盘状态并向服务器提供数据。我已经在我的应用程序中实现了 OpenCV，并且正在尝试使用 FAST
tensorflow - fast-rcnn 目标检测中的误报
我正在使用 Tensorflow 和 faster_rcnn_inception_v2_coco 模型训练对象检测器，但在对视频进行分类时遇到了很多误报。经过一些研究，我发现我需要在训练过程中添加负

首页

博学

6Ren·AI

商城

python - Python Pandas 中的通用 Groupby : Fast way