python - 按分组然后应用函数然后在 Pandas Python 中展平回数据框-6ren

python - 按分组然后应用函数然后在 Pandas Python 中展平回数据框

转载作者：行者123 更新时间：2023-11-28 17:34:28

24

4

我有一些数据，其中一些列值是当年的总和(年初至今总和)。我想更改这些列以反射(reflect)差异而不是累计总和。数据如下所示:

                                ReportNumber   NIY  OANCFY  FQTR  FYEARQ
Reference  Published                                                    
2007-12-31 2008-02-21 00:00:00             1  3131    3073     4    2007
2008-03-31 2008-05-08 00:00:00             1  1189    1482     1    2008
           2009-05-07 16:00:00             2  1149     NaN     1    2008
2008-06-30 2008-08-07 00:00:00             1  2296    2493     2    2008
           2009-08-18 00:00:00             3  2214     NaN     2    2008
2008-09-30 2008-11-06 00:00:00             1  3402    3763     3    2008
           2009-11-07 00:00:00             3  3277     NaN     3    2008
2008-12-31 2009-02-17 16:00:00             1   NaN    4959     4    2008
           2009-02-18 00:00:00             3  4202     NaN     4    2008
           2010-03-21 00:00:00             5  4031     NaN     4    2008
2009-03-31 2009-05-07 16:00:00             1   942    1441     1    2009
2009-06-30 2009-08-06 00:00:00             1  1748    3017     2    2009
2009-09-30 2009-11-07 00:00:00             1  2458    4423     3    2009
2009-12-31 2010-02-24 16:00:00             1  3181    5598     4    2009
2010-03-31 2010-05-07 16:00:00             1   677    1172     1    2010
2010-06-30 2010-08-06 08:00:00             1  1392    2441     2    2010
2010-09-30 2010-11-08 16:00:00             1  1760    3150     3    2010
2010-12-31 2011-02-24 08:00:00             1   961    3946     4    2010
2011-03-31 2011-05-06 16:00:00             1   310     390     1    2011
           2012-08-16 16:00:00             2   319     NaN     1    2011
2011-06-30 2011-08-09 08:00:00             1   465     730     2    2011
           2012-08-16 16:00:00             2   443     NaN     2    2011
2011-09-30 2011-11-09 00:00:00             1   394    1222     3    2011
           2012-11-06 16:00:00             2   411     NaN     3    2011
2011-12-31 2012-03-06 00:00:00             1 -5725    1785     4    2011
           2013-03-05 00:00:00             2 -5754     NaN     4    2011
2012-03-31 2012-05-05 16:00:00             1    42     540     1    2012
           2012-08-16 16:00:00             2    10     NaN     1    2012
2012-06-30 2012-08-02 16:00:00             1  -294     999     2    2012
2012-09-30 2012-11-06 16:00:00             1  -675    1785     3    2012
2012-12-31 2013-03-05 00:00:00             1  -219    2708     4    2012

因此，我需要根据“FQTR”和“已发布”索引，在给定的 FYEARQ 中获取 FQTR 之间的差异，并将其作为一个框架。在我的尝试中，只要给定引用数据的项目(“NIY”、“OANCFY”)没有多个值，它就可以工作。

cfgtmp = cftmp.groupby('FYEARQ')
ft = dict()
for group_name, subdf in cftmp.dropna().drop_duplicates().groupby('FYEARQ'):
    tmp = pd.concat([subdf.head(1), subdf.diff()]).dropna()
    tmp['FQTR'] = subdf['FQTR']
    tmp['FYEARQ'] = subdf['FYEARQ']
    tmp['ReportNumber'] = subdf['ReportNumber']
    ft.update({group_name : tmp})
    print group_name
    print 'differences'
    print tmp
    print ' '

pd.concat 尝试处理季度之间的差异(“FQTR”)。它返回:

2007
differences
                       ReportNumber   NIY  OANCFY  FQTR  FYEARQ
Reference  Published                                           
2007-12-31 2008-02-21             1  3131    3073     4    2007

2008
differences
                       ReportNumber   NIY  OANCFY  FQTR  FYEARQ
Reference  Published                                           
2008-03-31 2008-05-08             1  1189    1482     1    2008
2008-06-30 2008-08-07             1  1107    1011     2    2008
2008-09-30 2008-11-06             1  1106    1270     3    2008

2009
differences
                                ReportNumber  NIY  OANCFY  FQTR  FYEARQ
Reference  Published                                                   
2009-03-31 2009-05-07 16:00:00             1  942    1441     1    2009
2009-06-30 2009-08-06 00:00:00             1  806    1576     2    2009
2009-09-30 2009-11-07 00:00:00             1  710    1406     3    2009
2009-12-31 2010-02-24 16:00:00             1  723    1175     4    2009

2010
differences
                                ReportNumber  NIY  OANCFY  FQTR  FYEARQ
Reference  Published                                                   
2010-03-31 2010-05-07 16:00:00             1  677    1172     1    2010
2010-06-30 2010-08-06 08:00:00             1  715    1269     2    2010
2010-09-30 2010-11-08 16:00:00             1  368     709     3    2010
2010-12-31 2011-02-24 08:00:00             1 -799     796     4    2010

2011
differences
                                ReportNumber   NIY  OANCFY  FQTR  FYEARQ
Reference  Published                                                    
2011-03-31 2011-05-06 16:00:00             1   310     390     1    2011
2011-06-30 2011-08-09 08:00:00             1   155     340     2    2011
2011-09-30 2011-11-09 00:00:00             1   -71     492     3    2011
2011-12-31 2012-03-06 00:00:00             1 -6119     563     4    2011

2012
differences
                                ReportNumber  NIY  OANCFY  FQTR  FYEARQ
Reference  Published                                                   
2012-03-31 2012-05-05 16:00:00             1   42     540     1    2012
2012-06-30 2012-08-02 16:00:00             1 -336     459     2    2012
2012-09-30 2012-11-06 16:00:00             1 -381     786     3    2012
2012-12-31 2013-03-05 00:00:00             1  456     923     4    2012

这个解决方案的问题是它只对'ReportNumber' == 1 有效

然后我使用 pd.concat 将其展平为一帧:

pd.concat([ft[f] for f in ft])

有什么建议吗？

最佳答案

您的 cftmp.dropna(). 部分丢弃了与 1 以外的 ReportNumber 关联的数据。在您的示例数据框中，这些数据恰好具有 OANCFY 的 nan。

但是，为了避免使用循环，您可以这样做:使用 head 获取第一个观察值，使用 diff() 获取 delta，然后使用 concat 他们在一起。

In [71]:

newdf = pd.concat((df.groupby(['FYEARQ', 
                               'ReportNumber']).head(1),
                   df.groupby(['FYEARQ', 
                               'ReportNumber']).diff().dropna())).reset_index()\
                                                                 .sort('Reference')\
                                                                 .dropna(subset=['OANCFY'])\
                                                                 .reset_index(drop=True)\
                                                                 .fillna(method='pad')

newdf['FQTR'] = newdf.FQTR.groupby(newdf.FYEARQ).cumsum()

print newdf

     Reference           Published  FQTR  FYEARQ   NIY  OANCFY  ReportNumber
0   2007-12-31 2008-02-21 00:00:00     4    2007  3131    3073             1
1   2008-03-31 2008-05-08 00:00:00     1    2008  1189    1482             1
2   2008-06-30 2008-08-07 00:00:00     2    2008  1107    1011             1
3   2008-09-30 2008-11-06 00:00:00     3    2008  1106    1270             1
4   2009-03-31 2009-05-07 16:00:00     1    2009   942    1441             1
5   2009-06-30 2009-08-06 00:00:00     2    2009   806    1576             1
6   2009-09-30 2009-11-07 00:00:00     3    2009   710    1406             1
7   2009-12-31 2010-02-24 16:00:00     4    2009   723    1175             1
8   2010-03-31 2010-05-07 16:00:00     1    2010   677    1172             1
9   2010-06-30 2010-08-06 08:00:00     2    2010   715    1269             1
10  2010-09-30 2010-11-08 16:00:00     3    2010   368     709             1
11  2010-12-31 2011-02-24 08:00:00     4    2010  -799     796             1
12  2011-03-31 2011-05-06 16:00:00     1    2011   310     390             1
13  2011-06-30 2011-08-09 08:00:00     2    2011   155     340             1
14  2011-09-30 2011-11-09 00:00:00     3    2011   -71     492             1
15  2011-12-31 2012-03-06 00:00:00     4    2011 -6119     563             1
16  2012-03-31 2012-05-05 16:00:00     1    2012    42     540             1
17  2012-06-30 2012-08-02 16:00:00     2    2012  -336     459             1
18  2012-09-30 2012-11-06 16:00:00     3    2012  -381     786             1
19  2012-12-31 2013-03-05 00:00:00     4    2012   456     923             1

关于python - 按分组然后应用函数然后在 Pandas Python 中展平回数据框，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/31916255/

24

4

0

文章推荐： Python:ValueError:无法将字符串转换为 float : 'D'

文章推荐： Python asyncio - heartbeat() 方法不写入流

文章推荐： html - 如何在图像上放置透明彩色纸？

文章推荐： python - 如何将隐藏的输入值插入django中的数据库

c++ - 我是否需要在下次转移时将所有权*回*转移到转移队列？
我打算使用 vulkan synchronization examples 之一作为如何处理不经常更新的统一缓冲区的引用。具体来说，我正在看这个: vkBeginCommandBuffer(...);
git - 将分支和子分支 merge 回 master
我对 git 的了解有限。我已经从 master 创建了一个分支 B1，进行了一些编辑并提交到这个分支。我想从 B1 创建另一个分支 B2，我在 B2 中进行了一些编辑而且我还想提交 B2(包含
git - 如何将更改 merge 回 HEAD
这是我做的我创建了一个分支 abc。然后我创建了两个文本文件 one.txt 和 two.txt。然后我将它们提交到分支 abc。然后我从分支中删除文件 one.txt 并将这些更改提交到分支。现
git - 将已删除文件的分支 merge 回 master
在我的主分支中，我得到了 2 个文件: file1.txt file2.txt 我从那里创建了名为 b1 的新分支。在b1中，我修改了file2.txt，不小心删除了file1.txt(从磁盘中，当我
Git 基础 - merge 回 master
我是 git 的新手。我创建了一个分支，进行了更改，现在我想 merge 回 master 以使它们“永久化”。所以我执行了 git merge 1.2 报告为已经是最新的，在 master 上执
Git - 将 master merge 回 develop？
我在一个新团队中，工作方式与我以前习惯的完全不同，我们在功能分支上工作，测试人员会在该功能分支上进行测试，然后我们会运行一个 jenkins 作业在该功能被测试签署时将该功能 merge 到开发中，根
C - realloc 不反射(reflect)回 main
我目前正在学习动态内存管理是如何工作的，更具体地说是 realloc 以及它是如何在函数中完成的。在下面的程序中，我只是想尝试使用 malloc 在函数 a() 中分配一些数字，然后将它们传递给另一
java - 你如何分派(dispatch)回 Java 中的主线程？
在 Java 中如何从另一个线程分派(dispatch)回主 UI 线程？我正在使用带有 Runnable 的执行器在主 UI 线程之外做一些工作，并且我有一个接口(interface)，以便可以通过
Git:将一个新的提交 merge 回 master，这是针对一个非常旧的提交
我在 git 中有一个项目，所有的事情都直接在 master 分支上完成，标签被用来标记代码的发布版本。我知道这并不理想，并且一直在查看 git 流程，例如:http://nvie.com/posts
Git:如何找到所有从未 merge 回 master 的分支
我们有一个相当大的 GIT 存储库，我想删除从未 merge 回 master 的分支。反过来也很好 - 一种列出在某个时候已 merge 到 master 中的所有分支的方法。我希望首先获取一个
c - 将字符串从 Swift 传递到 C 回 Swift
在 Swift 和 C 之间传递字符串时，我看到一些我不理解的行为。请考虑以下 Swift 函数: func demo() { print("\n\n\n\n")
git - 如何在不丢失我在 github 上的工作的情况下 merge 回 master？
我以前从未合作过，现在我发现自己需要与其他一些人分享这个项目，即使我将完成 90% 的开发工作。我在 github 上有一个私有(private)仓库。我用推送了我的初始源 git push or
git - 是否应该将 "merge commit" merge 回 dev 分支？
我们的项目使用 Gitlab，我们有两个长期存在的分支:dev 和 master，类似于 Git Flow。我们正在使用“merge 提交”方法，它将在主分支中创建一个 merge 提交。但是，由于
cocoa - 将 NSArrayController 绑定(bind)回 ivar 时出现问题
我对自定义 View 的绑定(bind)属性有疑问。该属性绑定(bind)到核心数据实体的 NSArrayController。问题是这样的: 在我看来，我画了几个矩形。这些矩形的位置保存在核心数据
java - 将 TreeMap.Submap 返回 : SortedMap, 回 TreeMap
这对我来说似乎太棘手，无法正确执行此操作。我有一个TreeMap ，我正在获取其中的子图: public static reqObj assignObj(reqObj vArg, i
Silverlight - 从 DataGrid 列绑定(bind)回 View 模型的根属性？
我有以下 XAML: 所以，基本上我希望将其中一
javascript - AngularJS:ui-select 将数据绑定(bind)回 select
我正在使用 Angular js 1.3.4 版本并使用 ui-select。我正在将复杂的多级 JSON 对象数组绑定(bind)到此 ui-select，它工作正常。因此用户可以在此选择中选择任
c# - 将所有 NLog 日志绑定(bind)回 WebAPI 中的原始请求的方法？
我正在使用 WebAPI 构建 API，并且一直在使用 NLog 在整个堆栈中进行日志记录。我的 API 解决方案有两个主要项目，包括: 实现 Controller 和 webapi 东西的网站层本身
Git:如何找到分支 A 中源自派生分支 B 并 merge 回 A 的所有提交？
在 Git 中，给定 (1) 一个分支 A 和 (2) 一个在过去某个时间从 A 派生的分支 B，然后 merge 回 A，我如何才能找到现在 A 中起源于 B 的所有提交？目的是确定现在在 A 中
java - Struts2如何将Set
从 View 绑定(bind)回 Controller
假设我的 Controller 如下所示: public class myController { private MyCustomItem acte; ... // gett
行者123

个人简介
我是一名优秀的程序员,十分优秀！
作者热门文章

html - 出于某种原因，IE8 对我的 Sass 文件中继承的 html5 CSS 不友好？

JMeter 在响应断言中使用 span 标签的问题

html - 在 :hover and :active? 上具有不同效果的 CSS 动画

html - 相对于居中的 html 内容固定的 CSS 重复背景？
滴滴打车优惠券免费领取
全站热门文章

.NET中的线程安全数据结构

夜莺v8第一个版本来了，开始做有意思的功能了

.NET9增强OpenAPI规范，不再内置swagger

推荐一个C#轻量级矢量图形库

用于航空发动机故障诊断的深度分层排序网络

跟着8.6kStar的开源数据库，搞RAG！

manim边学边做--同伦变换

深入理解Servlet：从基础概念到高级特性与实战应用

VisualStudio-API调试与测试工具之HTTP文件

经典区间线段树详解：从原理到实践
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
 广告合作:1813099741@qq.com 6ren.com

首页

博学

6Ren·AI

商城

python - 按分组然后应用函数然后在 Pandas Python 中展平回数据框