python - 使用 sort_values + head() 时如何包含匹配值-6ren

python - 使用 sort_values + head() 时如何包含匹配值

转载作者：行者123 更新时间：2023-12-01 06:25:45

25

4

我有一个df:

       Date Symbol Person
0   2019 Q3      A    Bob
1   2019 Q3      A    Jon
2   2019 Q3      B    Rob
3   2019 Q3      B    Ron
4   2019 Q3      C    Jay
5   2019 Q3      C    Ray
6   2019 Q3      D    Fay
7   2019 Q2      A    Bob
8   2019 Q2      A    Jon
9   2019 Q2      B    Rob
10  2019 Q2      B    Ron
11  2019 Q2      C    Jay
12  2019 Q2      C    Ray
13  2019 Q2      D    Fay
14  2019 Q2      D    Bre
15  2019 Q2      E    Jon
16  2019 Q2      F    Ron

我试图按计数找到每季度前两个 Symbols 。但正如您所看到的，有时对于给定的 Symbols 有两个以上的 Date 具有相同的计数值(例如，符号 A 、 B 、和 C 中的 2019 Q3 和符号 0x1045 67915, A, B < em>和 C 中的 D 。

当我这样做时:

df['Count'] = df.groupby(['Date', 'Symbol'])['Person'].transform('nunique')
df = df[['Date', 'Symbol', 'Count']]
df.drop_duplicates(subset=None, keep="first", inplace=True)
df = df.sort_values('Count', ascending=False).groupby('Date').head(2).sort_index()

我的输出仅包括前两个:

   Date Symbol  Count
2019 Q3      A      2
2019 Q3      B      2
2019 Q2      A      2
2019 Q2      B      2

但是我怎样才能得到它，以便所有绑定(bind)的 2019 Q2 实例也被包含在内，这样它看起来像:

   Date Symbol  Count
2019 Q3      A      2
2019 Q3      B      2
2019 Q3      C      2
2019 Q2      A      2
2019 Q2      B      2
2019 Q2      C      2
2019 Q2      D      2

最佳答案

我们可以GroupBy并获取nunique(无需转换)，并过滤Count较大的位置或等于 Count 列中的第二个值:

df.sort_values(['Date', 'Symbol'], inplace=True)
g = df.groupby(['Date', 'Symbol']).Person.nunique().rename('Count')
g[g >= g.groupby(level=0).transform('nth', 1)].reset_index()

    Date    Symbol  Count
0  2019Q2      A      2
1  2019Q2      B      2
2  2019Q2      C      2
3  2019Q2      D      2
4  2019Q3      A      2
5  2019Q3      B      2
6  2019Q3      C      2

这是有效的，因为数据已排序，选择大于或等于 Count 列中第二个值的所有值将确保我们始终包含以下任一值:

两个最高计数(如果第二个计数不同)
在第二个与第一个相同的情况下，所有计数都等于第一个

关于python - 使用 sort_values + head() 时如何包含匹配值，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/60152298/

25

4

0

文章推荐： java - startActivityForResult 之后 Android 旋转

文章推荐： python - 如何在 Heroku Django 上安装 PyMuPDF

文章推荐： python - 使用 Makefile、Docker 和 Python 部署到 heroku

文章推荐： python - 将 Python 时间转换为 MicroPython PyBoard

python - sort_values 与 sort 给出不同的答案，但 sort_values 是正确答案
我想知道这两段代码之间的区别是什么？ New_Series = pd.Series(df['avg']).sort(axis=0, ascending=False,
python - Sort_value 错误下降
我不知道我的代码有什么问题 import pandas as pd import numpy as np woe = [1.1147295474833758,0.364043491078754,-0.
python - 基于列索引的 Sort_values
我已经看到很多关于基于 pandas 列名称排序的建议，但我正在尝试基于列索引进行排序。我已经包含了一些代码来演示我正在尝试做什么。 import pandas as pd df = pd.Data
pandas - Sort_values Pandas 按索引排序？
我知道 sort_index() 可以让我按索引对 df 进行排序，但我想知道 sort_values() 是否也可以按索引排序(无需重置索引)？最佳答案不，如果不先将索引转换为列(可能使用 re
python - Pandas - sort_values 未正确排序转换后的浮点百分比
我正在处理一个数据框，我想在其中显示某些值的百分比。我将它们计算为十进制值，然后应用格式字符串将它们转换为百分比。当数据框转换为百分比时，它无法正确地对百分比进行排序。 d = {'name': ['
带有嵌套列表的 Python pandas sort_values()
我想通过 pandas 对 pyhon 中的嵌套字典进行排序。 import pandas as pd # Data structure (nested list): # { # category
python - sort_values() 获得意外的关键字参数 'by'
for i in str_list: #str_list is a set contain some strings df.loc[i].sort_values(by = 'XXX') *
python - pandas sort_values 返回意外结果
我正在尝试使用 pandas sort_values() 函数对 datafarame 进行排序，但返回的结果以一种奇怪的方式排序，如所附图像所示最佳答案问题是列Citation是数字的字符串表
python - Pandas sort_values 没有正确排序数字
我是 pandas 的新手，在编程环境中处理表格数据。我按特定列对数据框进行了排序，但 Pandas 吐出的答案并不完全正确。这是我使用的代码: league_dataframe.sort_valu
python - 为什么 "sort_values"不能正常工作？
我正在尝试打印 target_playlist 中的值。问题是我想按 percentuali 列对 target_playlist 中的值进行排序，我使用了 target_playlist.sort_
python - dataframe.sort_values() 是如何修改索引的
我有一个数据框，我想在其中一个列(即日期)上排序但是我有一个在索引上运行的循环( while i
python - 请检查有关 "sort_values"的错误消息
此问题已解决。“Env”(“Env”)中有一个看不见的空间。下面的代码是正确的。问题: 我不明白有关 sort_values 的错误消息。下面是打印的数据框。 print(df)
python - Python 中带键的 sort_values()
我有一个数据框，其中列名是时间(0:00、0:10、0:20、...、23:50)。现在，它们按字符串顺序排序(所以 0:00 是第一个，9:50 是最后一个)但我想按时间对它们进行排序(所以 0:0
python - 根据 sort_values 标准添加水平线以绘制
问题: 如何根据下面在 top_5 变量中捕获的 sort_values 标准向 plot 添加水平线。: 数据: 这是 data 的一部分在 CSV 中: 这是当前情节。 axnum = today
python - DataFrame 对象没有属性 'sort_values'
dataset = pd.read_csv("dataset.csv").fillna(" ")[:100] dataset['Id']=0 dataset['i']=0 dataset['j']=0
python - Pandas sort_value() 问题。应用关键参数时错误排序整数
大家好，我试图到处寻找这个问题，但我找不到解决方案。如果你能帮助我，我会很高兴。所以，基本上我有这个数据集: df = pd.DataFrame({"col1": ['xxx', 'xxx', 'x
python - 使用 sort_values + head() 时如何包含匹配值
我有一个df: Date Symbol Person 0 2019 Q3 A Bob 1 2019 Q3 A Jon 2 2019 Q3
python - Pandas 中的 sort_values() 方法
我有以下数据子集，我需要按升序对 Education 列进行排序；从 0 到 17。我尝试了以下代码但没有成功。 suicide_data.sort_index(axis=0, kind='merg
python - sort_values 和 sort_index 有什么区别？
Python Pandas 提供了两种对 DataFrame 进行排序的方法: sort_values (或已弃用 sort ) sort_index 这两种方法有什么区别？最佳答案由于问题已更新
python - 属性错误 : 'list' object has no attribute 'sort_values'
在工作中，我们最近升级到 pandas 0.20，我有一个使用 sort 排序的数字列表(但是不再支持此功能，我在尝试 sort_values 时收到上述消息)。 numbers = [1, 3, 4

首页

博学

6Ren·AI

商城

python - 使用 sort_values + head() 时如何包含匹配值