Python Pandas Dataframe - 基于条件的分组和平均-6ren

Python Pandas Dataframe - 基于条件的分组和平均

转载作者：行者123 更新时间：2023-12-01 04:25:19

26

4

我有一个如下所示的数据框:

id  start       end         diff mindiff
1   2015-01-02  2015-07-01  180 57
2   2015-02-03  2015-05-12  98  56
3   2015-01-15  2015-01-20  5   5
4   2015-02-04  2015-04-15  70  55
5   2015-03-15  2015-05-01  47  46
6   2015-02-22  2015-03-01  7   7
7   2015-03-21  2015-04-12  22  22
8   2015-04-11  2015-06-15  65  50
9   2015-04-11  2015-05-01  20  20
10  2015-03-30  2015-04-01  2   2
11  2015-04-28  2015-06-15  48  33
12  2015-05-01  2015-06-01  31  31
13  2015-05-10  2015-06-09  30  30
14  2015-05-19  2015-07-01  43  42
15  2015-06-01  2015-06-06  5   5
16  2015-06-02  2015-06-29  27  27
17  2015-04-29  2015-05-21  22  22
18  2015-05-25  2015-07-01  37  36
19  2015-06-04  2015-06-26  22  22
20  2015-06-21  2015-07-01  10  10
21  2015-05-30  2015-06-06  7   7
22  2015-06-30  2015-07-01  1   1

字段为 id、start(日期)、end(日期)、diff(开始和结束之间的天数)、mindiff(min(与开始日期的最后一天的差值 x 个月)。

本例中的 x 为 1(因此比开始日期“晚”一个月)

我想要完成的是找到 Mindiff 的平均值，按“结束”的年/月分组，但仅对每个组具有“开始”年/月的记录进行平均 x (定义如上)，直到 groupedby 月份。以上面的数据集为例，id 1 只会在 2015/1 和 2015/1+x (2015/2) 年/月中进行平均。

这是一个表格，标记了每条记录以及我想要平均的月份:

    Months                      
id  1   2   3   4   5   6   7
1   1   1                   
2       1   1               
3   1                       
4       1   1               
5           1   1           
6       1   1               
7           1   1           
8               1   1       
9               1   1       
10          1   1           
11              1   1       
12                  1   1   
13                  1   1   
14                  1   1   
15                      1   
16                      1   
17              1   1       
18                  1   1   
19                      1   
20                      1   1
21                  1   1   
22                      1   1

以下是我正在寻找的mindiffs和由此产生的每月AVG:

    Months                      
id  1   2   3   4   5   6   7
1   57  57                  
2       56  56              
3   5                       
4       55  55              
5           46  46          
6       7   7               
7           22  22          
8               50  50      
9               20  20      
10          2   2           
11              33  33      
12                  31  31  
13                  30  30  
14                  42  42  
15                      5   
16                      27  
17              22  22      
18                  36  36  
19                      22  
20                      10  10
21                  7   7   
22                      1   1
AVG 31  43.8    31.3    27.9    30.1    21.1    5.5

最后，这是我正在寻找的数据框:

Month   Avg Diff Trailing x months
2015-01 31
2015-02 43.75
2015-03 31.33333333
2015-05 27.85714286
2015-05 30.11111111
2015-06 21.1
2015-07 5.5

我知道循环是可能的，但我的直觉告诉我 GROUPBY 更Pythonic并且可能更高效。但是，如何仅获取“开始”月份的特定滚动 Mindiff 值，以在“结束”年/月的分组内进行平均。谢谢您的帮助。

最佳答案

首先，我创建了不同年份的测试数据，并将最后一行的开始设置为 12 月。然后，我将 start 和 end 列转换为句点 - periodS 和 periodE 列。

我按月列使用函数groupby并计算Avg列的平均值:

g = df1.groupby('months')['Avg'].mean().reset_index()

import pandas as pd
import numpy as np
import io

temp=u"""id;start;end
1;2014-01-02;2014-07-01
2;2014-02-03;2014-05-12
3;2014-01-15;2014-01-20
4;2014-02-04;2014-04-15
5;2014-03-15;2014-05-01
6;2014-02-22;2014-03-01
7;2015-03-21;2015-04-12
8;2015-04-11;2015-06-15
9;2015-04-11;2015-05-01
10;2015-03-30;2015-04-01
11;2015-04-28;2015-06-15
12;2015-05-01;2015-06-01
13;2015-05-10;2015-06-09
14;2016-05-19;2016-07-01
15;2016-06-01;2016-06-06
16;2016-06-02;2016-06-29
17;2016-04-29;2016-05-21
18;2016-05-25;2016-07-01
19;2017-06-04;2017-06-26
20;2017-06-21;2017-07-01
21;2017-05-30;2017-06-06
22;2017-12-30;2018-02-01"""

df = pd.read_csv(io.StringIO(temp), sep=";", index_col=[0])
print df
def last_day_of_next_month(any_day):
    next_month = any_day.replace(day=28) + pd.Timedelta(days=36)  # this will never fail
    return next_month - pd.Timedelta(days=next_month.day)

df['mindiff'] = (pd.to_datetime(df['start']).apply(last_day_of_next_month) - pd.to_datetime(df['start'])).astype('timedelta64[D]')
df['diff'] = (pd.to_datetime(df['end']) - pd.to_datetime(df['start'])).astype('timedelta64[D]')
df['mindiff'] = df[['mindiff', 'diff']].apply(lambda x: min(x), axis=1)
#print df

#set day of start and end to periodindex
df['periodS'] =  pd.to_datetime(df['start']).dt.to_period('M')
df['periodE'] =  pd.to_datetime(df['end']).dt.to_period('M')

#if period end is higher as period start, add one month else NaN
df['period'] = np.where(df['periodE'] > df['periodS'],df['periodS'] + 1, np.nan)
#print df
#df from subset
df1 = df[['mindiff', 'periodS', 'period']]
#pivot data (from rows to columns)
df1 = df1.set_index('mindiff').stack().reset_index()
#rename columns names
df1.columns = ['Avg', 'tmp', 'months']
#groupby by column month and count mean from column Avg
g = df1.groupby('months')['Avg'].mean().reset_index()
print g
#     months        Avg
#0   2014-01  31.000000
#1   2014-02  43.750000
#2   2014-03  41.000000
#3   2014-04  46.000000
#4   2015-03  12.000000
#5   2015-04  25.400000
#6   2015-05  32.800000
#7   2015-06  30.500000
#8   2016-04  22.000000
#9   2016-05  33.333333
#10  2016-06  27.500000
#11  2017-05   7.000000
#12  2017-06  13.000000
#13  2017-07  10.000000
#14  2017-12  32.000000
#15  2018-01  32.000000

关于Python Pandas Dataframe - 基于条件的分组和平均，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/33219686/

26

4

0

文章推荐： python - 在 Python 中从制表符分隔的文件中读取并导出单列

文章推荐： python - 是否可以对除预定义单词之外的所有单词进行标记？

文章推荐： python - 使用双回车将大文本文件分成单独的文件

文章推荐： jQuery - SlideDown 缓动

MySQL查询总和结果除以行数(平均)
我在 MySQL 中有以下数据，我想求和(总计)然后除以行数。例子: 我想对 AcctSessionTime 列中的所有数字求和并将其除以项目数，所以在我们的例子中 6+4+3+31=44 将它们除
SQL 平均(计数(*))？
我试图找出一个值在列中出现的平均次数，根据另一列对其进行分组，然后对其进行计算。我有 3 张 table ，有点像这样 DVD ID | NAME 1 | 1 2 | 1 3
C 编程 - 平均
好吧，我完全被困在这里，如果这给你们带来任何不便，我深表歉意，但我需要你们的帮助。我目前正在自学 C，并且从昨天开始慢慢地达到目标。所以我想给自己一个任务，让用户输入 3 个数字，程序必须找到这三个
java - 数组 - 平均
我在使用 subAverage 类时遇到困难。当我使用 main 方法时，它似乎无法正常运行。基本上，subAverage 对数组中包含开始索引和结束索引的项进行平均。但是，当我运行它时，我得到了 3
Python numpy 平均
像这样平均一个表不是问题 table = [[1,2,3,0],[1,2,3,0],[1,2,3,4]] 你可以 print numpy.average(table,axis=0) 但是如果我有不均匀
JavaScript 平均 while 循环
问题 -开发一个类平均脚本，每次运行时都会处理任意数量的结果。提示用户输入每个结果，直到他/她输入 -1。 (哨兵)确定类(class)平均值并将其写入页面。如果未输入结果(第一个输入为 -1)，则显
javascript - 对两个数组的值进行分组(平均)
我有 2 个包含以下数据的数组: Array1 = [A, A, A, A, B, B, B, C, C, C, C, C]; Array2 = [4, 2, 4, 6, 3, 9, 6, 5,
Python:从文本文件导入列表并根据多列进行排序/平均
我有一个如下所示的文本文件: Mike 5 7 9 Terry 3 7 4 Ste 8 2 3 我写了下面的程序从文本文件中检索数据将文本分成由空格分隔的列将每个名字后面的分数按顺序排序(最低在
python - 平均-Python
我试图找到范围内数字的平均值(即找到 1-1000 范围内所有数字的平均值)。我编写了以下代码来执行此操作，但由于 if 语句，在运行时，代码会生成多个数字。然后我尝试使用 while-loop 代替
Python最长/平均 'losing'以字符串中的二进制数字序列运行
我有一系列事件。 1 是好的，0 是坏的。寻找寻找 1 个序列的最大、最小和平均长度的最 Pythonic 方式。例如: seq ="00100000000000110100100000000011
C# Linq 平均
我有一个包含类似于以下数据的表格: Group TimePoint Value 1 0 1 1 0 2
python - 对对象列表的属性求和/平均
假设我有一个类 C，它具有属性 a。从 Python 中的 C 列表中获取 a 总和的最佳方法是什么？我已经尝试了以下代码，但我知道这不是正确的做法: for c in c_list: t
r - 合并(平均)具有部分匹配标题名称的列
我有一个看起来像的数据: AAA_1 AAA_2 AAA_3 BBB_1 BBB_2 BBB_3 CCC 1 1 1 1 2 2
qt - 平均 QRgb 值
对于分色算法，我需要对 std::vector 中的颜色值 (QRgb) 进行平均。您建议如何做？分别对 3 个分量求和然后取平均值？不然呢？最佳答案自 QRgb只是一个 ARGB 格式的 32
mean - 关于(平均)平均精度的困惑
在this问题中，我要求对精度调用曲线进行澄清。特别是，我问我们是否必须考虑一定数量的排名才能画出曲线，还是我们可以合理地选择自己。根据answer，第二个是正确的。但是，现在我对平均精度(AP)
networking - 平均 UDP 数据包丢失和数据包重新排序
我想在 UDP 数据包丢失(或丢失)问题上获得其他 SO'ers 的经验。最初我的理解是，给定直接点对点连接，其中网卡通过交叉电缆连接，网卡上有充足的缓冲区并及时处理所述缓冲区，“应该”没有数据包丢
r - 统计效率低下( block 平均)
我有一系列数据，这些数据是通过分子动力学模拟获得的，因此在时间上是连续的，并且在某种程度上是相关的。我可以将平均值计算为数据的平均值，我想估计与以这种方式计算的平均值相关的误差。根据 this bo
excel - 平均 If 函数 - 排除零？
我正在使用以下averageIf公式 =AVERAGEIF('Backend Data - Aerospace'!D:D, "Total",'Backend Data - Aerospace'!E:E
sql - 平均 sal 然后按降序排序
我想列出所有收入超过平均工资的员工。我对此有点迷茫。我需要将所有薪水加起来然后取平均，只显示收入高于平均水平的薪水。在这方面我需要很多帮助。我的查询不起作用 SQL> select empno,
audio - 平均 voip 压缩率？
我正在运行一些音频压缩测试并尝试 Skype's Silk .在他们的测试应用程序中，我看到压缩率为 94%。这似乎很高，这是 Silk 的典型比率吗？这与其他音频压缩编解码器有可比性吗？最佳答案

首页

博学

6Ren·AI

商城

Python Pandas Dataframe - 基于条件的分组和平均