python - Pandas :根据开始/结束日期聚合-6ren

python - Pandas :根据开始/结束日期聚合

转载作者：行者123 更新时间：2023-11-28 17:29:56

25

4

这实际上是一个去聚合，因为我有一个这样构造的数据集:

id  type   first_year   last_year
A   t1     2009         2014
A   t1     2010         2015
B   t1     2007         2009
B   t2     2008         2011

但我需要按 id/year 进行聚合，并且有重叠的开始/结束条目。

数据在 pandas 数据框中，如下所示:

test_frame = pd.DataFrame([['A','t1',2009,2014],
                       ['A','t1',2010,2015],
                       ['B','t1',2007,2009],
                       ['B','t2',2008,2011]],
                      columns = ['id','type','first_year','last_year'])

我希望以几种不同的方式返回数据:

id  year  count
A   2009  1
A   2010  2
A   2011  2
...
B   2007  1
B   2008  2
B   2009  1

也许像这样:

id  year  type    count
A   2009  t1      1
A   2010  t1      2
A   2011  t1      2
...
B   2007  t1      1
B   2008  t1      1
B   2008  t2      1
B   2009  t2      1
B   2010  t2      1

这基本上适用于第一种方法，但正如您可以想象的那样，对大型数据集使用 itertuples 会非常慢。还有更多 Pandas 式的方式吗？

out_frame = pd.DataFrame(columns = ['id','type','year'])
for rows in test_frame.itertuples():
    for year in range(int(rows[3]),int(rows[4])):
        d2 = pd.DataFrame({'id': [rows[1]],'year': [year]},columns = ['id','year'])
        out_frame = out_frame.append(d2)
output1 = out_frame.groupby(['id','year'])['year'].count()
output1

最佳答案

您可以使用 stack和 resample :

import pandas as pd

test_frame = pd.DataFrame([['A','t1',2009,2014],
                       ['A','t1',2010,2015],
                       ['B','t1',2007,2009],
                       ['B','t2',2008,2011]],
                      columns = ['id','type','first_year','last_year'])

print test_frame
  id type  first_year  last_year
0  A   t1        2009       2014
1  A   t1        2010       2015
2  B   t1        2007       2009
3  B   t2        2008       2011

#stack df, drop and rename column year
test_frame = test_frame.set_index(['id','type'], append=True).stack().reset_index(level=[1,2,3])
test_frame = test_frame.drop('level_3', axis=1).rename(columns={0:'year'})
#convert year to datetime
test_frame['year'] = pd.to_datetime(test_frame['year'], format="%Y")
print test_frame
  id type       year
0  A   t1 2009-01-01
0  A   t1 2014-01-01
1  A   t1 2010-01-01
1  A   t1 2015-01-01
2  B   t1 2007-01-01
2  B   t1 2009-01-01
3  B   t2 2008-01-01
3  B   t2 2011-01-01

#resample and fill missing data 
out_frame = test_frame.groupby(test_frame.index).apply(lambda x: x.set_index('year').resample('1AS', how='first',fill_method='ffill')).reset_index(level=1)
print out_frame
        year id type
0 2009-01-01  A   t1
0 2010-01-01  A   t1
0 2011-01-01  A   t1
0 2012-01-01  A   t1
0 2013-01-01  A   t1
0 2014-01-01  A   t1
1 2010-01-01  A   t1
1 2011-01-01  A   t1
1 2012-01-01  A   t1
1 2013-01-01  A   t1
1 2014-01-01  A   t1
1 2015-01-01  A   t1
2 2007-01-01  B   t1
2 2008-01-01  B   t1
2 2009-01-01  B   t1
3 2008-01-01  B   t2
3 2009-01-01  B   t2
3 2010-01-01  B   t2
3 2011-01-01  B   t2

#convert to year
out_frame['year'] = out_frame['year'].dt.year

output1 = out_frame.groupby(['id','year', 'type'])['year'].count().reset_index(name='count')
print output1
   id  year type  count
0   A  2009   t1      1
1   A  2010   t1      2
2   A  2011   t1      2
3   A  2012   t1      2
4   A  2013   t1      2
5   A  2014   t1      2
6   A  2015   t1      1
7   B  2007   t1      1
8   B  2008   t1      1
9   B  2008   t2      1
10  B  2009   t1      1
11  B  2009   t2      1
12  B  2010   t2      1
13  B  2011   t2      1

output2 = out_frame.groupby(['id','year'])['year'].count().reset_index(name='count')
print output2
   id  year  count
0   A  2009      1
1   A  2010      2
2   A  2011      2
3   A  2012      2
4   A  2013      2
5   A  2014      2
6   A  2015      1
7   B  2007      1
8   B  2008      2
9   B  2009      2
10  B  2010      1
11  B  2011      1

关于python - Pandas :根据开始/结束日期聚合，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/35187444/

25

4

0

文章推荐： python - Django 夹层与 Wordpress

文章推荐： HTML 代码缺少正文

文章推荐： javascript - ReactJS - 组件外部的全局状态

文章推荐： python - 从哪里获得 RAND_egd？

naming-conventions - 开始 -> 结束 |停止 |结束？
我正在编写一个类，我想知道哪一对方法更适合描述流程周期: start() -> stop() start() -> end() start() -> finish() 基本上这些方法将在执行任务之前和
android - 小部件类名称什么时候以 "View"结束，什么时候以 "Layout"结束？
对于 Android 小部件类名称是否应以“View”、“Layout”或两者都不结尾，是否存在模式或命名约定？最佳答案如果该类扩展了 View(或在其层次结构中扩展了 View)，那么它应该以“
VIM 高亮匹配开始/结束
我正在尝试找到一个插件，该插件将使用 Verilog 突出显示匹配的开始/结束语句。 VIM 让它与花括号/括号一起工作，但它不能与它的开始/结束一起工作。我希望 VIM 突出显示正确的开始到正确的结
matlab - 时间序列元胞数组中的数据总和(结束)
给出以下代码: % Generate some random data n = 10; A = cell(n, 1); for i=1:n A{i} = timeseries; A{i
javascript - 检测输入何时聚焦于开始/结束
我需要知道是否可以检测输入何时开始聚焦以及何时结束焦点 HTML 代码: JQuery 代码(仅示例我如何需要它): $('.datas').on('focusStart', alert("fo
Java，结束 JFrame
所以我一直在思考一款游戏的想法，一款需要穿越时空的游戏。因此，我编写了一个 JFrame 来显示螺旋的 .gif，但它并没有在对话框显示时结束，而是保留在后台。我可以解决这个问题吗？ import j
java - 我的程序没有以执行器返回/结束
给出以下使用多线程的 Java 示例: import java.util.concurrent.*; public class SquareCalculator { private Ex
java - 结束 do-while 循环
好吧，我有一个 do-while 循环，应该在使用点击“q”时结束，但它给了我错误消息，请帮忙。 package Assignments; import java.util.*; public cla
regex - 正则表达式可选匹配行的开始/结束
我如何有选择地匹配开始 ^或结束 $正则表达式中的一行？例如: /(?\\1', $str); 我的字符串开头和结尾处的粗体边缘情况没有被匹配。我在使用其他变体时遇到的一些极端情况包括字符串内匹配、
java - 结束 while 循环的问题
我试图让程序在总数达到 10 时结束，但由于某种原因，我的 while 循环在达到 10 时继续计数。一旦回答了 10 个问题，我就有 int 百分比来查找百分比。 import java.util.
jquery - 结束()函数
jQuery 中的 end() 函数将元素集恢复到上次破坏性更改之前的状态，因此我可以看到它应该如何使用，但我已经看到了一些代码示例，例如:on alistapart (可能来自旧版本的 jQuery
javascript - 如何知道一个字符串以javascript中的特定字符开始/结束？
这个问题在这里已经有了答案: How to check if a string "StartsWith" another string? (18 个答案) 关闭 9 年前。 var file =
postgresql - 工作停顿(结束)
我正在尝试在 travis 上设置两个数据库，但它只是在 before_install 声明的中途停止: (END) No output has been received in the last 1
mysql - 结束 while 循环缺少分号
我创建了一个简单的存储过程，它循环遍历一个表的行并将它们插入到另一个表中。由于某种原因，END WHILE 循环抛出缺少分号错误。所有代码对我来说都是正确的，并且所有分隔符都设置正确。我只是不明白为什
ios - AVSpeechSynthesis 结束
您好，我正在使用 AVSpeechSynthesizer 和 AVSpeechUtterance 构建一个 iOS 7 应用程序，我想弄清楚合成何时完成。更具体地说，我想在合成结束时更改播放/暂停按钮
javascript - 响应后调用提醒。结束
这是我的代码，我试图在响应后显示警报。但没有显示操作系统警报 string filepath = ConfigurationManager.AppSettings["USPPath"].ToStri
python - 遍历日历月的开始/结束
我想创建一个循环，在提供的时间段、第一天和最后一天返回每个月(考虑到月份在第 28-31 天结束):(“function_to_increase_month”尚未定义) for beg in pd.d
python - 结束 while 循环
我目前正在用 Python 3.6 为一个骰子游戏编写代码，我知道我的编码在这方面有点不对劲，但是，我真的只是想知道如何开始我的 while 循环。游戏说明如下…… 人类玩家与计算机对战。玩家 1
android - 结束 fragment
所以我已经了解了如何打开 fragment。这是我的困境。我的 view 旁边有一个元素列表(元素周期表元素)。当您选择一个元素时，它会显示它的信息。我的问题是我需要能够从(我们称之为详细信息 fr
javascript - 检测滚动完成/结束
我想检测用户何时停止滚动页面/元素。这可能很棘手，因为最近对 OSX 滚动行为的增强创造了这种新的惯性效应。是否触发了事件？我能想到的唯一其他解决方案是在页面/元素的滚动位置不再改变时使用间隔来拾取

首页

博学

6Ren·AI

商城

python - Pandas :根据开始/结束日期聚合