python - Pandas 数据帧 : difference between all dates for each unique id-6ren

python - Pandas 数据帧 : difference between all dates for each unique id

转载作者：太空宇宙更新时间：2023-11-03 21:16:27

25

4

[In 621]: df = pd.DataFrame({'id':[44,44,44,88,88,90,95],
                   'Status': ['Reject','Submit','Draft','Accept','Submit',
                   'Submit','Draft'],
                              'Datetime': ['2018-11-24 08:56:02',
                              '2018-10-24 18:12:02','2018-10-24 08:12:02', 
                              '2018-10-29 13:17:02','2018-10-24 10:12:02',
                              '2018-12-30 08:43:12', '2019-01-24 06:12:02']
                              }, columns = ['id','Status', 'Datetime'])
df['Datetime'] = pd.to_datetime(df['Datetime'])                              
df

Out[621]: 
   id  Status            Datetime
0  44  Reject 2018-11-24 08:56:02
1  44  Submit 2018-10-24 18:12:02
2  44   Draft 2018-10-24 08:12:02
3  88  Accept 2018-10-29 13:17:02
4  88  Submit 2018-10-24 10:12:02
5  90  Submit 2018-12-30 08:43:12
6  95   Draft 2019-01-24 06:12:02

我想要得到的是另一列，例如df['Time in Status'] 这是 id 在该状态下花费的时间。

我查看了 df.groupby() 但只找到了用于计算两个日期(例如第一个和最后一个)之间的答案( such as this one )，无论中间有多少个日期。

df['Datetime'] = pd.to_datetime(df['Datetime'])                              
g = df.groupby('id')['Datetime']
print(df.groupby('id')['Datetime'].apply(lambda g: g.iloc[-1] - g.iloc[0])) 

id
44   -32 days +23:16:00
88    -6 days +20:55:00
90      0 days 00:00:00
95      0 days 00:00:00
Name: Datetime, dtype: timedelta64[ns]

我最接近得到的结果是 DataFrameGroupBy.diff

df['Time in Status'] = df.groupby('id')['Datetime'].diff()
df
   id  Status            Datetime          Time in Status
0  44  Reject 2018-11-24 08:56:02                NaT
1  44  Submit 2018-10-24 18:12:02 -31 days +09:16:00
2  44   Draft 2018-10-24 08:12:02  -1 days +14:00:00
3  88  Accept 2018-10-29 13:17:02                NaT
4  88  Submit 2018-10-24 10:12:02  -6 days +20:55:00
5  90  Submit 2018-12-30 08:43:12                NaT
6  95   Draft 2019-01-24 06:12:02                NaT

但是这有两个问题。首先，我怎样才能从最早的日期开始一直计算到最后呢？例如。那么在 2 行中，不是 -1 days +14:00:00 而是 0 Days 10:00:00？或者通过预先重新排列数据的顺序来解决这个问题是否更容易？

另一个问题是 NaT。如果没有可比较的日期，则将使用当天(即 datetime.now)。之后我可以很容易地应用这个，但我想知道是否有更好的解决方案来查找和替换所有 NaT 值。

最佳答案

没错，你说得对，首先是必要的排序DataFrame.sort_values两列:

df = df.sort_values(['id', 'Datetime'])
df['Time in Status'] = df.groupby('id')['Datetime'].diff()
print (df)
   id  Status            Datetime   Time in Status
2  44   Draft 2018-10-24 08:12:02              NaT
1  44  Submit 2018-10-24 18:12:02  0 days 10:00:00
0  44  Reject 2018-11-24 08:56:02 30 days 14:44:00
4  88  Submit 2018-10-24 10:12:02              NaT
3  88  Accept 2018-10-29 13:17:02  5 days 03:05:00
5  90  Submit 2018-12-30 08:43:12              NaT
6  95   Draft 2019-01-24 06:12:02              NaT

关于python - Pandas 数据帧 : difference between all dates for each unique id，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/54669337/

25

4

0

文章推荐： python - 从 python pandas 数据框中删除一些元素

文章推荐： c# - 为什么我的程序不能确定对动态变量使用哪种扩展方法？

文章推荐： opencv - 非连接形态过滤器

文章推荐： c# - 如何将整数数组传递给方法 : Reflection C#

mysql - UNIQUE、UNIQUE KEY 和 CONSTRAINT 'name' UNIQUE 有什么区别？
我想在 MySQL 中创建一个基本的 users 表。我不希望数据库中出现重复的电子邮件或重复的用户名。在创建表时防止这种情况的最佳方法是什么？和以下有什么区别: 1. UNIQUE(用户名)，
unique - 检测到 "unique"匿名用户
不可能将用户或请求识别为唯一，因为欺骗是微不足道的。但是，有一些方法组合起来可以阻止作弊尝试并为用户提供准独特的地位。我知道以下内容: IP 地址 - 将每个访问者的 IP 地址存储在某种数据库中
sql-server - sql server : Unique constraint generates unique key and unique index
我有 2 个表: attCatAppSet, attCatAppSet_translation 在这两个表上，我对 2 列(不是主键)应用了唯一约束，因此列对值不能重复。 GO ALTER TABLE
mysql - Django/MySQL : Making non-unique field unique fails even if field values are unique
我目前有这个: class Committee(models.Model): # ...some fields... committee_xml_id = models.Integer
mysql - 如何更改表以将列从 UNIQUE 更改为 NOT UNIQUE？
这个问题在这里已经有了答案: 关闭10 年前。 Possible Duplicate: how to alter live mysql table to make a key non unique
【C++ STL基础入门教程】C++ unique(STL unique)算法详解
unique() 算法可以在序列中原地移除重复的元素，这就要求被处理的序列必须是正向迭代器所指定的。在移除重复元素后，它会返回一个正向迭代器作为新序列的结束迭代器。可以提供一个函数对象作为可选的第三个
django - 从我的模型字段中将 unique=True 更改为 unique=False
我的模型中有一个这样的字段 name = models.CharField(max_length=100, unique=True) 但现在该表/模型有很多数据，需要更改True 到 False 但无
Typeorm:列选项中@Unique 装饰器和{ unique: true } 之间有什么区别？
在 Typeorm 中，您可以在列选项中设置唯一标志，或将列设置为实体的唯一。你什么时候会使用什么，有什么区别？@Unique(["firstName"]) https://typeorm.io/#
unique.default(x) unique() 中的 R 错误仅适用于向量
我创建了一个名为 state 的数据集来自内置矩阵state.x77有两个连续变量(人口和收入)和两个因素变量(区域和面积)。我使用 tapply() 计算了按地区划分的平均收入, by() , a
database - SQLite - 表约束 UNIQUE 和列约束 UNIQUE 之间有什么区别？
关于 SQLite 的问题。在 CREATE TABLE SQL 中，我们可以通过任何一种方式添加 UNIQUE 约束:列约束或表约束。我的问题很简单。它们的工作方式不同吗？我能找到的唯一区别是，
python - 'NoneType' 对象没有属性 'unique' 但我没有使用 'unique' 属性
我在 Django 1.8 中构建模型，我正在使用抽象继承(我假设这是导致问题的原因)。我有抽象模型，然后我有基于这些抽象模型的模型。我在某些模型之间也有 ForeignKey 和 ManyToMan
mysql - UNIQUE INDEX 和 UNIQUE KEY 有什么区别？
我见过几个示例表，一个是 UNIQUE INDEX，另一个是 UNIQUE KEY。两者有什么区别？？还是两者都一样？最佳答案 CREATE TABLE KEY 通常是 INDEX 的同义词。您可
python - 为什么 pd.unique() 比 np.unique() 快？
我试着比较了两者，一个是pandas.unique()，另一个是numpy.unique()，我发现后者实际上超过了第一个。我不确定卓越是否是线性的。谁能告诉我为什么在代码实现方面存在这种差异？在
powershell - Get-Unique 和 select-object -unique 的区别
使用 PowerShell，我通过“import-csv”将文件中的 csv-data 导入对象 $csvList。这个 csv 数据有一个名为 Benutzer 的列。当做这样的事情时: $csvL
mysql - SQL 约束 : Unique value in a non-unique column
我有一个名为 GroupMembers 的表，它表示参与网站上某些社区的用户列表。列看起来像这样: groupId | accountId | role 如您所见，里面有一个名为“role”的
安卓 : Unique Id for android device to identify the unique device
我需要一个不会因 Android 设备而改变的 ID，它在任何时候都应该是唯一的，即使 WIFI、SIM 卡、蓝牙不存在，以及当用户重置他/她的手机或刷新新操作系统时也是如此。我知道这些 Id。IM
java - JPA - @Column (unique=true) - 拥有 'unique' 属性的真正意义是什么？
假设我有“主题”表 CREATE TABLE subject (id int PRIMARY KEY, name VARCHAR(255) **UNIQUE**) 和相关的映射对象， @Entity
MySQL : how to create custom unique key combination based on year and a unique no
好的，让我解释一下场景。我有一个“订单”表，其中有一个自动增量键“orderno”。该表也有一个字段“orderdate”。我想要的是格式化的订单号。 (orderno_formatted) 采用以下
c++ - boost multi_index : retrieve unique values of a non-unique key
我有一个 boost::multi_index_container 其元素是这样的结构: struct Elem { A a; B b; C c; }; 主键(在数据库意义上)
MySQL:如何将 varchar(255) UNIQUE 列更改为 UNIQUE Text NOT NULL？
当前列是 VARCHAR(255) NOT NULL，那么如何将其更改为 TEXT NOT NULL？注意:要更改其属性类型的列是另一列的 UNIQUE KEY 组合。例如唯一键(名称、描述) 列

首页

博学

6Ren·AI

商城

python - Pandas 数据帧 : difference between all dates for each unique id