python - Pandas Timedelta 平均值返回错误 "No numeric types to aggregate"。为什么？-6ren

python - Pandas Timedelta 平均值返回错误 "No numeric types to aggregate"。为什么？

转载作者：行者123 更新时间：2023-12-04 01:39:09

28

4

我正在尝试执行以下操作:

pd.concat([A,B], axis = 1).groupby("status_reason")["closing_time"].mean()

在哪里

A 是名为“status_reason”的系列(分类值)

B 是一个名为“close_time”的系列(TimeDelta 值)

例子:

In : A.head(5)
Out: 
     0    -1 days +11:35:00
     1   -10 days +07:13:00
     2                  NaT
     3                  NaT
     4                  NaT
    Name: closing_time, dtype: timedelta64[ns]

In : B.head(5)
Out:
     0            Won
     1       Canceled
     2    In Progress
     3    In Progress
     4    In Progress
     Name: status_reason, dtype: object

出现以下错误:

DataError: No numeric types to aggregate

请注意:我试图执行平均甚至隔离每个类别

现在，我在网上看到了一些与我类似的问题，所以我尝试了这个:

pd.to_timedelta(pd.concat([pd.to_numeric(A),B], axis = 1).groupby("status_reason")["closing_time"].mean())

这只是将 Timedelta 转换为 int64，反之亦然。但结果很奇怪(数字太高了)

为了调查情况，我写了以下代码:

xxx = pd.concat([A,B], axis = 1)
xxx.closing_time.mean()
#xxx.groupby("status_reason")["closing_time"].mean()

第二行工作正常，无需将 Timedelta 转换为 Int64。第三行不起作用，并再次返回 DataError。

我在这里很困惑!我错过了什么？

我想看看每个“状态原因”的“关闭时间”的平均值!

编辑

如果我尝试这样做:(隔离具有特定状态的行而不分组)

yyy = xxx[xxx["status_reason"] == "In Progress"]
yyy["closing_time"].mean()

结果是:

Timedelta('310 days 21:18:05.454545')

但是如果我这样做:(隔离具有特定状态分组的行)

yyy = xxx[xxx["status_reason"] == "In Progress"]
yyy.groupby("status_reason")["closing_time"].mean()

结果又是:

DataError: No numeric types to aggregate

最后，如果我这样做:(转换和转换回来)(让我们调用: 特殊示例 )

yyy = xxx[xxx["status_reason"] == "In Progress"]
yyy.closing_time = pd.to_numeric (yyy.closing_time)
pd.to_timedelta(yyy.groupby("status_reason")["closing_time"].mean())

我们回到我注意到的第一个问题:

status_reason
In Progress   -105558 days +10:08:05.605064
Name: closing_time, dtype: timedelta64[ns]

编辑2

如果我这样做:(转换为秒并转换回来)

yyy = xxx[xxx["status_reason"] == "In Progress"]
yyy.closing_time = A.dt.seconds
pd.to_timedelta(yyy.groupby("status_reason")["closing_time"].mean(), unit="s" )

结果是

status_reason
In Progress   08:12:38.181818
Name: closing_time, dtype: timedelta64[ns]

如果我删除 NaN，或者用 0 填充它们，则会发生相同的结果:

yyy = xxx[xxx["status_reason"] == "In Progress"].dropna()
yyy.closing_time = A.dt.seconds
pd.to_timedelta(yyy.groupby("status_reason")["closing_time"].mean(), unit="s" )

但是这些数字与我们在第一次编辑中看到的非常不同! ( 特殊示例 )

-105558 days +10:08:05.605064

另外，让我使用 dropna() 运行相同的代码( 特殊示例 ):

310 days 21:18:05.454545

再次，让我们使用 fillna(0) 运行相同的代码( 特殊示例 ):

3 days 11:14:22.819472

这无处可去。我可能应该准备导出这些数据，并将它们张贴在某个地方: Here we go

最佳答案

从阅读 Github 上对此问题的讨论 here ，您可以通过为均值计算指定 numeric_only=False 来解决此问题，如下所示

pd.concat([A,B], axis = 1).groupby("status_reason")["closing_time"] \
    .mean(numeric_only=False)

关于python - Pandas Timedelta 平均值返回错误 "No numeric types to aggregate"。为什么？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/58306309/

28

4

0

文章推荐： vuejs2 - 如何在 vue-router 中对路由进行分组

文章推荐： Django:通过 Office365 发送电子邮件

文章推荐： scala - 如何使用外交将 AHB 端口连接到 DRAM Controller 设备

python - 如何将标准 timedelta 字符串转换为 timedelta 对象
将标准 timedelta 字符串转换为 timedelta 对象的最简单方法是什么？我已经打印了几个 timedelta 对象并得到了这些字符串: '1157 days, 9:46:39' '12
Python 2.6.5 : Divide timedelta with timedelta
我正在尝试将一个 timedelta 对象与另一个对象相除以计算服务器正常运行时间: >>> import datetime >>> installation_date=datetime.dateti
python - 无法操作 datetime.timedelta(0, 3600)， block 值必须是 str，而不是 datetime.timedelta
这里我有一个包含日期、时间和一个输入的数据集。这里我想添加特定时间的 timedelta 并添加到日期时间列。所以这里首先我将指定时间转换为 00:00:00，它将作为开始时间。从那时起，我想添加一
python - timedelta 操作的错误结果
dta_h 是一个 DataFrame，dta_h.Datetime 看起来像这样: 0 2013-03-01 00:00:00 1 2013-02-28 23:00:00 2 20
python - timedelta 和两个时间范围
我想知道 timedelta 有多少小时在白天和夜晚范围内。时间开始: >>> dt_start = datetime.datetime(2012, 8, 19, 16, 0) 时间停止: >>>
python - 将字符串转回日期时间 timedelta
我的 pandas 数据框中的一列表示我用 datetime 计算的时间增量，然后导出到 csv 并读回 pandas 数据框中。现在该列的 dtype 是对象，而我希望它是一个 timedelta，
python - 如何使用for循环每次加一天(timedelta)
这是我的代码: import datetime date = datetime.date(2015,10,1) today = datetime..today() oneday = datetime.
python - timedelta 不支持的类型
我正在尝试通过包含在同一数据框的另一列中的值来增加 pandas 数据框中的日期，如下所示 loans['est_close_date'] = loans['dealdate'] + loans['t
Python timedelta 收到意外结果
在我为现有数据库编写的 Web 应用程序中，我需要计算现在和存储在数据库中的时间戳之间的差异(在文本字段中，这很愚蠢，我知道)。这是我的 sqlalchemy Ban 类和相关方法。 class Ba
python - 使用字符串变量格式化 timedelta
使用 Python 2.6 给定以下代码行，我如何从数据库中的变量动态构建 timedelta 的值？ next_alert_date = datetime.strptime(start_due_da
python - Timedelta 未定义
下面是我正在处理的代码。据我所知，没有问题，但是当我尝试运行这段代码时，我收到了一个错误。 import os import datetime def parseOptions(): impo
python - 添加到日期的 timedelta 是否考虑闰年？
例子假设对于一个给定的日期，当我们加上timedelta(days=180)，并得到新的日期时，是否考虑闰年并计算新的日期？或者我们是否只计算当前日期的闰年，是否 Feb 有 28/29 天，并在 p
datetime - Python TimeDelta 将日期添加到提供的参数中
不确定如何处理这个问题。用户提供一个参数，即 program.exe '2001-08-12' 我需要为该参数添加一天 - 这将代表程序另一部分的日期范围。我知道您可以从当天添加或减去，但如何从用户
python - 使用时间戳与使用 timedelta 的时间添加之间的区别？
我正在解决 Exercism.io 千兆秒问题: “计算某人活了 10^9 秒的时刻。” 我的方法是将 datetime 输入转换为时间戳，添加 10**9，然后转换回来。我的答案非常接近，但测试套件
Python 3 Timedelta 溢出错误
我有一个大型数据库，正在加载到内存缓存中。我有一个过程可以每天迭代数据。最近这个过程已经开始抛出以下错误: OverflowError: date value out of range对于线 sta
python datetime.timedelta 成一个列表
我有一个时间值(value)存放在一个名为 newTime 的变量中. 当打印 newTime它给了我这样的结果 newTime = 0:07:00女巫很棒，因为我喜欢那样。但是当保存 newTi
python - 用 timedelta 系列绘制直方图
我有一些数据系列，这是一种 timedelta 数据类型。我想将这些 timedelta 绘制成条形图，其中 y 轴应仅以小时为单位而不是其他格式进行标记。以前，当我在 matplotlib 中尝试绘
datetime - Python转换军用时间用户输入并计算工作时间(datetime.timedelta)
菜鸟在这里，我一直试图将军事时间的用户输入呈现为标准时间。代码到目前为止有效，但我需要从结束时间减去 12 小时才能在标准时间显示。我如何使用 datetime.time 做到这一点？另外，我是否需
python - 如何将 timedelta 转换为小时
我有一个 timedelta 数据框 JC time 1 3days 21:02:05 2 1days 23:50:07 3 6days 19:28:36 但我想要 1 93:02:05 2 47:5
datetime - sqlalchemy timedelta 属性
我需要在表的一列中保存时间间隔。基于:http://docs.sqlalchemy.org/en/rel_0_8/core/types.html 我可以用 Interval键入。我的数据库是SQLit

首页

博学

6Ren·AI

商城

python - Pandas Timedelta 平均值返回错误 "No numeric types to aggregate"。为什么？