python - 如何计算 Pandas Dataframe 中变量的唯一组合-6ren

python - 如何计算 Pandas Dataframe 中变量的唯一组合

转载作者：太空狗更新时间：2023-10-30 02:00:33

我正在使用 pandas 来计算数据框中变量集的唯一组合。我目前正在使用 .groupby() 函数，但我认为我缺少它的部分功能。

示例代码:

import pandas
df = pd.DataFrame([['A','C','G'],
                   ['A','C','H'],
                   ['A','D','G'],
                   ['A','D','H'],
                   ['B','E','I'],
                   ['B','F','I']], columns=['a','b','c'])
df

   a  b  c
0  A  C  G
1  A  C  H
2  A  D  G
3  A  D  H
4  B  E  I
5  B  F  I

假设我想知道，对于每个唯一值 a，它有多少个不同的 b？在此示例中，所需的输出是 A: 2, B:2，因为 A 有两个唯一的 b 值，B 有两个唯一的 b 值。

如果我计算每个 a 的唯一 c，我会期望 A:2，B:1。

我当前的代码是:

df.groupby(['a','b'],as_index=False).count().groupby(['a'], as_index=False).count()[['a','b']]

   a  b
0  A  2
1  B  2

df.groupby(['a','c'], as_index=False).count().groupby(['a'],as_index=False).count()[['a','c']]

   a  c
0  A  2
1  B  1

这给了我正确的结果，但我认为应该有一种方法可以避免两组 groupby() 和 count()，不是吗？

最佳答案

nunique 怎么样？

df.groupby('a')['b'].nunique()
Out[36]: 
a
A    2
B    2
Name: b, dtype: int64

关于python - 如何计算 Pandas Dataframe 中变量的唯一组合，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/38086432/

文章推荐： sql - 如何删除数据库记录并重新使用已删除的主键？

文章推荐： python - Django 和条件聚合

文章推荐： python - 在 telnet 中找不到 404，在浏览器中工作正常

文章推荐： database - 使用 Doctrine\DBAL\Exception 捕获数据库错误

让 Node.js 变“懒”的 COW 技术
COW 不是奶牛，是 Copy-On-Write 的缩写，这是一种是复制但也不完全是复制的技术。一般来说复制就是创建出完全相同的两份，两份是独立的：但是，有的时候复制这件事没多大必要

太空狗

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

python - 如何计算 Pandas Dataframe 中变量的唯一组合