python - 具有冗余 nan 类别的 Pandas groupby-6ren

python - 具有冗余 nan 类别的 Pandas groupby

转载作者：IT老高更新时间：2023-10-28 21:12:23

25

4

我在使用 pandas groupby 时遇到问题带有分类数据。从理论上讲，它应该非常高效:您通过整数而不是字符串进行分组和索引。但它坚持认为，当按多个类别进行分组时，每个类别组合都必须考虑在内。

即使常见字符串的密度很低，我有时也会使用类别，这仅仅是因为这些字符串很长，而且可以节省内存/提高性能。有时每列中有数千个类别。当按 3 列分组时，pandas 强制我们保存 1000^3 组的结果。

我的问题:有没有一种方便的方法可以将 groupby 与类别一起使用，同时避免这种不良行为？我不是在寻找这些解决方案中的任何一个:

通过 numpy 重新创建所有功能。
在groupby之前不断转换为字符串/代码，稍后恢复为类别。
从组列创建一个元组列，然后按元组列分组。

我希望有一种方法可以修改这个特殊的 pandas 特质。下面是一个简单的例子。我最终得到了 12 个，而不是我想要的 4 个输出类别。

import pandas as pd

group_cols = ['Group1', 'Group2', 'Group3']

df = pd.DataFrame([['A', 'B', 'C', 54.34],
                   ['A', 'B', 'D', 61.34],
                   ['B', 'A', 'C', 514.5],
                   ['B', 'A', 'A', 765.4],
                   ['A', 'B', 'D', 765.4]],
                  columns=(group_cols+['Value']))

for col in group_cols:
    df[col] = df[col].astype('category')

df.groupby(group_cols, as_index=False).sum()

Group1  Group2  Group3  Value
#   A   A   A   NaN
#   A   A   C   NaN
#   A   A   D   NaN
#   A   B   A   NaN
#   A   B   C   54.34
#   A   B   D   826.74
#   B   A   A   765.40
#   B   A   C   514.50
#   B   A   D   NaN
#   B   B   A   NaN
#   B   B   C   NaN
#   B   B   D   NaN

赏金更新

pandas 开发团队未能很好地解决这个问题(参见 github.com/pandas-dev/pandas/issues/17594)。因此，我正在寻找解决以下任何问题的回复:

为什么引用 pandas 源代码，分类数据在 groupby 操作中的处理方式不同？
为什么首选当前的实现方式？我很欣赏这是主观的，但我正在努力寻找这个问题的任何答案。当前的行为在许多情况下是令人望而却步的，没有繁琐且可能代价高昂的解决方法。
是否有一个干净的解决方案来覆盖 pandas 在 groupby 操作中对分类数据的处理？请注意 3 条禁止路线(下拉到 numpy；与代码之间的转换；按元组列创建和分组)。我更喜欢“符合 pandas”的解决方案，以尽量减少/避免丢失其他 pandas 分类功能。
来自 Pandas 开发团队的回应，旨在支持和阐明现有的治疗方法。另外，为什么要考虑所有类别组合都不能配置为 bool 参数？

赏金更新 #2

需要明确的是，我并不期望上述 4 个问题都能得到答案。我要问的主要问题是覆盖 pandas 库方法是否可能或可取，以便以促进 groupby/set_index 操作。

最佳答案

自 Pandas 0.23.0 以来，groupby method现在可以采用参数 observed 来解决这个问题，如果它设置为 True(默认为 False)。以下是与问题完全相同的代码，仅添加了 observed=True :

import pandas as pd

group_cols = ['Group1', 'Group2', 'Group3']

df = pd.DataFrame([['A', 'B', 'C', 54.34],
                   ['A', 'B', 'D', 61.34],
                   ['B', 'A', 'C', 514.5],
                   ['B', 'A', 'A', 765.4],
                   ['A', 'B', 'D', 765.4]],
                  columns=(group_cols+['Value']))

for col in group_cols:
    df[col] = df[col].astype('category')

df.groupby(group_cols, as_index=False, observed=True).sum()

关于python - 具有冗余 nan 类别的 Pandas groupby，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/48471648/

25

4

0

文章推荐： java - JPA 计数 NamedQuery

文章推荐： python - 在数字列表中找到最大的数字

Java//冗余
我有下面提供的“示例代码”，我觉得这很多余，并且想请您与我一起解释是否有任何更少冗余的方法来处理以下代码。 public interface Bars { FOO1 FOO1 = (FOO1)
caching - AppFabric 冗余
我们刚刚测试了一个由 2 个服务器组成的 AppFabric 集群，我们在其中删除了“领导”服务器。第二个服务器对它的任何请求超时并出现错误: Microsoft.ApplicationServer.
mysql - 数据库模式中的外键过多(冗余？)
我正在设计一个关系数据库 - 底层是 MySQL - DBDesigner 4 . 我有 3 个表:module、page 和 lang。每个模块属于一个页面，每个页面都有特定的语言: 外键 pag
java - 冗余 If 消息
我的 Fraction 程序运行流畅，但 NetBeans IDE 告诉我以下 if 是多余的: public boolean equals(Object other) { Fraction bo
python - 冗余 If 语句和正则表达式
下面的代码显然是多余的，但根据我的经验，我经常使用这种模式。有没有更好的方法在 python 中执行此操作？ if re.search("at (\d{1,2}):\d{2}", p): a=
java - 当组件已经测试时测试复合对象 ->冗余？
我有一个用具体示例说明的一般性问题。当所有组件对象都已测试时，您建议对复合对象进行多少测试？作为具体示例，请考虑下面的 NullTerminatedStringReader。它从字节缓冲区中读取一个
java - 冗余 If 语句警告
if ( a > b) { return true; } return false; 对于上面的代码，Netbeans 给出了 “Redundant if statement” 警告并建议将其更改
SQL 冗余 NOT NULL 约束
当我添加一些约束时，例如: create table Test( IDTest int primary key, Credit int not null constraint Credit
c - 冗余 __packed__ 属性
此代码适用于 Microchip 的 PIC32MX 微处理器。他们的编译器本质上是 GCC 3.4。我倾向于使用 GCC 的 __packed__ attribute将位域打包到一个 union
Golang 类型切换需要(冗余)类型断言
已关闭。这个问题是 not reproducible or was caused by typos 。目前不接受答案。这个问题是由拼写错误或无法再重现的问题引起的。虽然类似的问题可能是 on-top
ios - 如何防止数据库中的APNS设备 token 冗余
我正在为我的应用程序使用apns通知，为此，我将apns设备 token 存储在我的sql数据库中。问题在于，每次用户删除或安装该应用程序时，它都会生成一个新的设备 token ，并将其存储在数据库
mysql - 冗余 MySQL 索引？
Action Keyname Type Unique Packed Column Cardinality Collation Null Comment Edit Dro
c - 冗余 IRQ 清除挂起操作
我正在开发一个使用 ARM Cortex-M0 处理器的项目。在这个项目中，我需要提供计时器支持(CMSDK (SSE-200)计时器)。因此，在 vector 表中，在 TIMER0_IRQn 表
java - CorsFilter setAllowedOrigins(*) 冗余
有没有写的理由 corsFilter.setAllowedOrigins(new HashSet(Arrays.asList("*"))); 其中allowedOrigins在ReSTLet框架中的定
HTML 页面 - 页眉和页脚 - 冗余
我正在创建一个包含 4 个链接的 HTML/CSS 页面， Home.html Details.html ContactMe.html AboutUs.html 我想在所有关联的 HTML 页面中将其
c++ - 如何避免两个不同头文件中的 typedef 冗余？
我试图理解并使用其他人编写的代码，但由于我对 typedef 经验不多。 , 我有时会感到困惑。有两个不同的头文件，一个继承另一个，并且在两个文件上声明相同的typedef。为什么会出现冗余，如何
html - CSS 中选择器的速度/冗余
按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the
android - 避免改造 POJO 冗余
我有一个用于改造的 POJO 类。 public class AppData(){ String a; String b; String c;
c# - 冗余 ToString 代码？
我想知道: 编写这段代码: DataRow[] g = new DataRow[1] ; var t=new StringBuilder().AppendFormat("{0}", g[0]["a
c# - 冗余 "using"是否会降低性能
只是一个性能问题...... 假设我有 5 个类，每个类都引用了 System.Data 和一个自己开发的库。这 5 个类是类库的一部分，最终将被构建并发布到一些 Web 应用程序作为引用。通过将引

首页

博学

6Ren·AI

商城

python - 具有冗余 nan 类别的 Pandas groupby