python - GroupBy pandas DataFrame 并选择最常见的值

转载作者：IT老高更新时间：2023-10-28 20:21:54

26

4

我有一个包含三个字符串列的数据框。我知道第三列中唯一的一个值对于前两个的每个组合都是有效的。要清理数据，我必须按数据框按前两列分组，并为每个组合选择第三列的最常见值。

我的代码:

import pandas as pd
from scipy import stats

source = pd.DataFrame({'Country' : ['USA', 'USA', 'Russia','USA'], 
                  'City' : ['New-York', 'New-York', 'Sankt-Petersburg', 'New-York'],
                  'Short name' : ['NY','New','Spb','NY']})

print source.groupby(['Country','City']).agg(lambda x: stats.mode(x['Short name'])[0])

最后一行代码不起作用，它显示“Key error 'Short name'”，如果我尝试仅按城市分组，则会收到 AssertionError。我能做些什么来解决它？

最佳答案

Pandas >= 0.16

`pd.Series.mode` 可用!

使用 groupby , GroupBy.agg , 并应用 pd.Series.mode每个组的功能:

source.groupby(['Country','City'])['Short name'].agg(pd.Series.mode)

Country  City            
Russia   Sankt-Petersburg    Spb
USA      New-York             NY
Name: Short name, dtype: object

如果需要将其作为 DataFrame，请使用

source.groupby(['Country','City'])['Short name'].agg(pd.Series.mode).to_frame()

                         Short name
Country City                       
Russia  Sankt-Petersburg        Spb
USA     New-York                 NY

Series.mode 的有用之处在于它总是返回一个 Series，使其与 agg 和 apply 非常兼容，尤其是在重建 groupby 输出。它也更快。

# Accepted answer.
%timeit source.groupby(['Country','City']).agg(lambda x:x.value_counts().index[0])
# Proposed in this post.
%timeit source.groupby(['Country','City'])['Short name'].agg(pd.Series.mode)

5.56 ms ± 343 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
2.76 ms ± 387 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

处理多种模式

Series.mode 在有多种模式时也能很好地工作:

source2 = source.append(
    pd.Series({'Country': 'USA', 'City': 'New-York', 'Short name': 'New'}),
    ignore_index=True)

# Now `source2` has two modes for the 
# ("USA", "New-York") group, they are "NY" and "New".
source2

  Country              City Short name
0     USA          New-York         NY
1     USA          New-York        New
2  Russia  Sankt-Petersburg        Spb
3     USA          New-York         NY
4     USA          New-York        New

source2.groupby(['Country','City'])['Short name'].agg(pd.Series.mode)

Country  City            
Russia   Sankt-Petersburg          Spb
USA      New-York            [NY, New]
Name: Short name, dtype: object

或者，如果您想为每种模式单独设置一行，您可以使用 GroupBy.apply :

source2.groupby(['Country','City'])['Short name'].apply(pd.Series.mode)

Country  City               
Russia   Sankt-Petersburg  0    Spb
USA      New-York          0     NY
                           1    New
Name: Short name, dtype: object

如果您不关心返回哪个模式，只要它是其中之一，那么您将需要一个调用 mode 并提取第一个结果的 lambda .

source2.groupby(['Country','City'])['Short name'].agg(
    lambda x: pd.Series.mode(x)[0])

Country  City            
Russia   Sankt-Petersburg    Spb
USA      New-York             NY
Name: Short name, dtype: object

替代(不)考虑

您也可以使用statistics.mode来自python，但是...

source.groupby(['Country','City'])['Short name'].apply(statistics.mode)

Country  City            
Russia   Sankt-Petersburg    Spb
USA      New-York             NY
Name: Short name, dtype: object

...在处理多种模式时效果不佳；引发了 StatisticsError。文档中提到了这一点:

If data is empty, or if there is not exactly one most common value, StatisticsError is raised.

但你可以自己看看……

statistics.mode([1, 2])
# ---------------------------------------------------------------------------
# StatisticsError                           Traceback (most recent call last)
# ...
# StatisticsError: no unique mode; found 2 equally common values

关于python - GroupBy pandas DataFrame 并选择最常见的值，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/15222754/

26

4

0

文章推荐： java - 用 url 字符串创建一个模拟 HttpServletRequest？

文章推荐： java - 静态最终长 serialVersionUID = 1L

文章推荐： java - 通过 mockito 创建一个模拟列表

文章推荐： java - Xmpp 与 Websocket

SQl 语句(常见)
新建表： create table [表名] ( [自动编号字段] int IDENTITY (1,1)&nbs
iphone - 常见 UI 字符串的本地化
我的文件中有正在本地化的字符串。其中许多是常见的，并且已经在整个 iOS 中使用。例如。 “保存”、“加载”、“返回”、“收藏夹”、“拍照”。为了与其他应用程序和内置应用程序提供一致的用户体验，是否有
qt - 常见 Qt 问题
我已经学习了 Qt 的基础知识，现在对这个漂亮的库的深度感兴趣。请帮助我理解: 所有类都是从QObject派生的吗？为什么可以在QWidget(和派生类)上绘画？ return app.exec()
javascript - 常见 JS - 是否可以要求一个函数
我在 webpack 中设置了一个自调用函数，并使用常见的 JS 来需要一些包: (function() { var $ = require("jquery"); //...my functi
java - 常见 nlp 任务的效率
我正在尝试制作一个大量使用词性标记的应用程序。但是 nltk 的 pos 标记功能对我来说似乎不符合标准 - 例如: import nltk text = "Obama delivers his fi
php - 常见 MYSQL 查询的缓存
有没有办法处理发送到 MySQL 的常见查询以防止不必要的带宽使用？最佳答案选项是: 使用MySQL缓存查询好:全自动差:仍然需要访问数据库服务器；有一次缓存让我在一个项目中失望，花了很长时间
c# - 常见 Linq 表达式的示例
关闭。这个问题需要更多focused .它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题 editing this post . 关闭 4 年前。 Improve this qu
mobile - AdSense - 移动广告未在某些(常见)设备上显示
关闭。这个问题需要debugging details .它目前不接受答案。想改善这个问题吗？更新问题，使其成为 on-topic对于堆栈溢出。 6年前关闭。 Improve this questio
java - 常见 io copyUrlToFile 不起作用
我正在尝试调用返回 csv 文件的网络服务。因此，我调用的每个 URL 都有一个后缀，它是一个字符串，表示要生成哪个 csv。然后我想将此 csv 保存到文件中。有很多要生成，所以我从多个线程调用此类
android - 常见/典型 Android 设备上的触摸点数量
流行手机型号支持的典型触摸点数量是多少？我在基础研究中看到低至 2 和高至 5，但我希望能够将其映射到实际手机和更好的限制! 最佳答案两部手机的触控点数据: Galaxy S 5 LG
Web 堆栈 - 常见 Web 堆栈/环境的列表
出于好奇 - 我知道有 LAMP - Linux、Apache、MySQL 和 PHP。但是还有哪些其他 Web 堆栈替代方案的缩写呢？像 LAMR - Linux、Apache、MySQL Ruby
java - 无法连接到 SFTP 服务器 Apache 常见
我写了一个java代码(使用apache common vfs2)来上传文件到SFTP服务器。最近，我在我的服务器上引入了 PGP 安全性。现在，java 代码无法连接到该服务器。与 FileZill
c++ - 在 OpenGL 中绘制形状的标准(常见)方法是什么？
由于 GLU 被认为对于现代 OpenGL (3.1+) 来说已经过时，那么使用 C/C++ 在 OpenGL 中绘制基本形状(例如椭圆或弧线/饼图)的方法是什么？令人难以置信的是，在 OpenGL
ios - 常见 iOS 应用程序的 URL 方案
我想知道是否有最流行的 iOS 应用程序的自定义 URL 方案列表，例如 Keynote、Numbers、Pages、Evernote 等。我还想知道这些应用程序使用什么参数网址。我需要这个的原因是
c++ - 常见 Linux 路径名在 Android 上对应的目录是什么？
我正在使用 NDK r10d 移植 C++ myToll Linux 应用程序以在 Android 上运行。 (请注意，这不是带有 apk 的 Android 应用程序，而是从 shell 运行的实用
php - 常见 PHP 服务器应用程序的 UML 部署图
假设您想要使用 UML 2 部署图为在该领域没有太多知识的人可视化一个常见的 PHP 服务器应用程序。这样一个通用的应用程序可能有三个设备节点(数据库服务器、Web 服务器和客户端)和四个执行环境节点
apache - hadoop mapreduce 常见 friend reducer 溢出
我正在尝试运行以下代码，以找到两个人之间的共同 friend 。输入如下 A : B C D B : A C D E C : A B D E D : A B C E E : B C D 我无法在输出文
git - 在 Git 中跟踪 Gitolite(常见)钩子(Hook)
我在 Gitolite 的 manual 中找到的唯一东西在钩子(Hook)上，是: If you want to add your own hook, it's easy as long as it
amazon-web-services - 常见 AWS 故障 - 处理 AZ 故障转移
具体来说，我有一个问题，在 AWS 环境中组织 AZ 故障转移的推荐方法是什么。此外，最好了解典型的 AWS 故障以组织应用程序 HA(高可用性)。因此，应用程序架构(AWS 服务使用)如下: 它或
java - 常见 spring NoRepositoryBean 基接口(interface)上的 PreAuthorize 问题
我正在尝试编写一个通用的 SecurePagingAndSorting 存储库，它将检查 CRUD 操作的安全性，以节省在所有 JPA 存储库中重复相同的 PreAuthorize(使用不同的权限)。

首页

博学

6Ren·AI

商城

python - GroupBy pandas DataFrame 并选择最常见的值

Pandas >= 0.16

`pd.Series.mode` 可用!

处理多种模式

替代(不)考虑

首页

博学

6Ren·AI

商城

python - GroupBy pandas DataFrame 并选择最常见的值

Pandas >= 0.16

pd.Series.mode 可用!

处理多种模式

替代(不)考虑

`pd.Series.mode` 可用!