group-by - Pandas:将重采样与 groupby 结合起来并计算时间差-6ren

group-by - Pandas:将重采样与 groupby 结合起来并计算时间差

转载作者：行者123 更新时间：2023-12-04 04:59:33

25

4

我正在用交易数据进行数据分析。我想使用 Pandas 来检查交易者活跃的时间。

特别是，我尝试提取每个交易者每天第一笔交易日期之间的分钟差异，并将其累积到每月

数据如下所示:

Timestamp (Datetime)  | Buyer | Volume 
--------------------------------------
2012-01-01 09:00:00   | John  | 10
2012-01-01 10:00:00   | Mark  | 10
2012-01-01 16:00:00   | Mark  | 10
2012-01-01 11:00:00   | Kevin | 10
2012-02-01 10:00:00   | Mark  | 10
2012-02-01 09:00:00   | John  | 10
2012-02-01 17:00:00   | Mark  | 10

现在我每天都使用重采样来检索第一笔交易。但是，我还想按买方分组来计算他们交易日期的差异。像这样

Timestamp (Datetime)  | Buyer | Volume 
--------------------------------------
2012-01-01 09:00:00   | John  | 10
2012-01-01 10:00:00   | Mark  | 10
2012-01-01 11:00:00   | Kevin | 10
2012-01-02 10:00:00   | Mark  | 10
2012-01-02 09:00:00   | John  | 10

总的来说，我希望计算每个交易者每天第一笔交易之间的分钟数差异。

更新

例如在 2012-01-01 上的 John 的情况下:Dist = 60 (Diff John-Mark) + 120 (Diff John-Kevin) = 180

如果有人知道如何做到这一点，我将不胜感激。

谢谢

最佳答案

您的原始帧(重新采样的帧)

In [71]: df_orig
Out[71]: 
   buyer                date  volume
0   John 2012-01-01 09:00:00      10
1   Mark 2012-01-01 10:00:00      10
2  Kevin 2012-01-01 11:00:00      10
3   Mark 2012-01-02 10:00:00      10
4   John 2012-01-02 09:00:00      10

将索引设置为日期列，将日期列保持在原位

In [75]: df = df_orig.set_index('date',drop=False)

创建此聚合函数

def f(frame):
    frame.sort('date',inplace=True)
    frame['start'] = frame.date.iloc[0]
    return frame

按单个日期分组

In [74]: x = df.groupby(pd.TimeGrouper('1d')).apply(f)

在几分钟内创建差异

In [86]: x['diff'] = (x.date-x.start).apply(lambda x: float(x.item().total_seconds())/60)

In [87]: x
Out[87]: 
                                buyer                date  volume               start  diff
           date                                                                            
2012-01-01 2012-01-01 09:00:00   John 2012-01-01 09:00:00      10 2012-01-01 09:00:00     0
           2012-01-01 10:00:00   Mark 2012-01-01 10:00:00      10 2012-01-01 09:00:00    60
           2012-01-01 11:00:00  Kevin 2012-01-01 11:00:00      10 2012-01-01 09:00:00   120
2012-01-02 2012-01-02 09:00:00   John 2012-01-02 09:00:00      10 2012-01-02 09:00:00     0
           2012-01-02 10:00:00   Mark 2012-01-02 10:00:00      10 2012-01-02 09:00:00    60

这是解释。我们使用 TimeGrouper 进行按日期分组，其中将帧传递给函数 f。这个函数，然后使用当天的第一个日期(这里需要排序)。您从条目上的日期中减去它以获得 timedelta64，然后将其按摩为分钟(由于一些 NumPy 问题，现在这有点棘手，在 0.12 中应该更自然)

感谢您的更新，我原本以为您想要每个买家的差异，而不是来自第一个买家，但这只是一个小调整。

更新:

要跟踪买家姓名(对应于开始日期)，只需包括
它在函数 f

def f(frame):
    frame.sort('date',inplace=True)
    frame['start'] = frame.date.iloc[0]
    frame['start_buyer'] = frame.buyer.iloc[0]
    return frame

然后可以在最后进行分组:

In [14]: x.groupby(['start_buyer']).sum()
Out[14]: 
             diff
start_buyer      
John          240

关于group-by - Pandas:将重采样与 groupby 结合起来并计算时间差，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/16309739/

25

4

0

文章推荐： opengl:非线性加色混合

文章推荐： java-ee-6 - CDI Producer(s) 同一类的不同版本

文章推荐： c++ - Qlabel::setPixmap 不起作用

文章推荐： arrays - Fortran 77 在运行时设置数组大小

Excel - 结合 SUMPRODUCT
我有一张 Excel 表格，用于更新玩家评分。播放器配售初始化 1 2 3 4 金融评级一个 1 2.0 1.000 0.018 0.016 0.014 2.007 D 2 -2.0 54.5
qt - 结合 QAbstractItemModels
我有一个 map = std::map ，其中 myItemModel继承QAbstractItemModel . 我现在要合并所有 myItemModel合一myItemModel (其他所有元素模
r - do.call 结合 "::"
我大量使用“do.call”来生成函数调用。例如: myfun <- "rnorm"; myargs <- list(n=10, mean=5); do.call(myfun, myargs); 但是
Scala future 结合
想象一下 InputStream 的以下变体: trait FutureInputStream { //read bytes asynchronously. Empty array means E
结合 C 和汇编代码
这是我的 C 代码: #include void sum(); int newAlphabet; int main(void) { sum();
Jquery:结合 "each"函数选择类后的所有内容
我只是想选择类“.last”之后的每个元素。 HTML: 1 2 Jquery
C# ？？结合？ : question
我正在为一个项目构建一个 XML 反序列化器，我经常遇到这种类型的代码情况: var myVariable = ParseNDecimal(xml.Element("myElement")) == n
SQLite:结合 OR 和 AND
这是来自 Selecting the highest salary 的继续问题假设有一个表 'wagetable' name lowhours highhours wage pri
c - 结合 if 语句来设置值限制
我正在为我的程序创建一个战舰程序；该程序运行良好，但我试图确保当用户将坐标超出范围时，程序会说他们输入的坐标不正确。这是代码: #include #include void
结合 GetLastError 的值和自定义错误消息
我有一个函数，它为每种情况返回不同的 DWORD 值，如果出现错误。所以我有以下定义: #define ERR_NO_DB_CONNECTION 0x90000 #define ERR_DB_N
结合.net框架在C#派生类中触发基类事件及实现接口事件
在派生类中引发基类事件以下简单示例演示了在基类中声明可从派生类引发的事件的标准方法。此模式广泛应用于 .NET Framework 类库中的 Windows 窗体类。在创建可用作其他类的基类的类时，应
perl 结合 map 和每个
我只是想知道这是否可能: use Modern::Perl; my @list = ('a' .. 'j'); map { func($_) } each(@list); sub func { m
excel - 结合 IF 函数和 OR 函数以允许多个条件
我一直在使用 =IF(L2="","Active",IF(K2I2,"Late"))) 有效，但现在我需要检查 F 上的多个条件专栏我试过了 OR 函数 =IF(OR(F2="Scheduled"
FFmpeg - 结合 2 个命令
我有 2 个命令，如下所示。在视频中添加介绍图片 ffmpeg -y -loop 1 -framerate 10 -t 3 -i intro.png -i video.mp4 -filter_com
vba - 结合 VBA 和公式来检查独特的输出
好的，我有这个公式可以根据名字和姓氏列表生成用户名。现在，虽然这可行，但我希望单元格改为引用我自己的 VBA 函数。但是，由于代码少得多，我仍然想使用原始公式。我有这个公式: =SUBSTITUTE
haproxy - 结合 HAProxy 统计数据？
我有两个 HAProxy 实例。两个实例都启用了统计信息并且工作正常。我正在尝试将两个实例的统计信息合并为一个，以便我可以使用单个 HAProxy 来查看前端/后端统计信息。我试图让两个 hapro
typescript - switchMap 结合 mergeMap
我有一个 Observable，其中每个新值都应该引起一个 HTTP 请求。在客户端，我只关心最新的响应值；但是，我希望每个请求都能完成以进行监控/等。目的。我目前拥有的是这样的: function
javascript - 如何将延迟加载与 TinyMCE 结合？
我的网站上有 TinyMCE 插件。在 TinyMCE 插件的 textarea 中添加图像时，我希望这些图像包含延迟加载。我网站的缩略图具有特定类型的延迟加载，其中 src 图像是灰色背景。根据用户
r - 将重叠间隔与 lubridate 结合
我希望合并润滑间隔，以便如果它们重叠，则从内部第一个时间获取最小值和从内部最后一个时间获取最大值并总结以创建一个跨越整个时间段的新间隔。这是一个reprex: library(lubridate, w
html - 结合 flex 和绝对定位时的混淆
我有一个应用程序，它本质上是一个页眉、主要内容和一个始终可见的页脚。页脚可以改变大小，我想在页脚上方的主内容面板上放置一些工具。主要布局是用 flex 完成的，我阅读文档的理解是绝对定位通过相对于最近

首页

博学

6Ren·AI

商城

group-by - Pandas:将重采样与 groupby 结合起来并计算时间差