python - 如何使用 datetime 加速 pandas 中 lambda 的应用方法-6ren

python - 如何使用 datetime 加速 pandas 中 lambda 的应用方法

转载作者：太空狗更新时间：2023-10-30 02:28:33

25

4

我是 Pandas 的新手。

我有一个名为 dlf 的非常简单的数据框，它有一个索引和两列 40k 行。它是这样加载的:

d = pd.DataFrame.from_csv(csvsLocation + 'name.csv', index_col='ID', infer_datetime_format=True)
d['LAST'] = pd.to_datetime(d['LAST'], format = '%d-%b-%y')
d['FIRST'] = pd.to_datetime(d['FIRST'], format = '%d-%b-%y')
dlf = d[['LAST', 'FIRST']]

看起来像这样:

    LAST    FIRST
ID      
1   1997-04-17  1991-10-04
3   2009-02-13  1988-07-07
5   2009-10-24  1995-12-06
6   1996-04-31  1989-03-14

运行此应用方法需要 5 秒:

year = 1997
dlf[str(year)] = dlf.apply(lambda row: 1*(year >= row['FIRST'].year and year <= row['LAST'].year), axis=1)

我需要加快速度，因为我打算运行它数百次。

我怀疑问题出在使用 lambda 上。

我做错了什么，和/或我怎样才能加快速度？

最佳答案

解决方案

您可以在两个日期列上通过 dt.year 访问年份:

year = 1999
df[str(year)] = 1 * ((df['FIRST'].dt.year <= year) & (df['LAST'].dt.year >= year))
print(df)

输出:

         LAST      FIRST  1999
ID                            
1  1997-04-17 1991-10-14     0
3  2009-02-13 1988-07-07     1
5  2009-10-24 1995-10-06     1
6  1996-04-30 1969-03-14     0

您还可以保留 bool 值作为结果:

df[str(year)] = (df['FIRST'].dt.year <= year) & (df['LAST'].dt.year >= year)
print(df)

输出:

         LAST      FIRST   1999
ID                             
1  1997-04-17 1991-10-14  False
3  2009-02-13 1988-07-07   True
5  2009-10-24 1995-10-06   True
6  1996-04-30 1969-03-14  False

性能

衡量绩效总是很有趣。但是测量可能很棘手。如果我们只使用 4 行的小示例数据框，事情会变得有点慢:

%timeit dlf[str(year)] = dlf.apply(lambda row: 1*(year >= row['FIRST'].year and year <= row['LAST'].year), axis=1)

1000 loops, best of 3: 1.27 ms per loop


%timeit df[str(year)] = 1 * ((df['FIRST'].dt.year <= year) & (df['LAST'].dt.year >= year))

100 loops, best of 3: 1.7 ms per loop

但让我们看一下 40k 行:

big = pd.concat([df] * 10000)

>>> big.info()
<class 'pandas.core.frame.DataFrame'>
Int64Index: 40000 entries, 1 to 6
Data columns (total 4 columns):
LAST     40000 non-null datetime64[ns]
FIRST    40000 non-null datetime64[ns]
1999     40000 non-null bool
1997     40000 non-null int64
dtypes: bool(1), datetime64[ns](2), int64(1)
memory usage: 1.3 MB

现在我们可以看到显着的加速:

%timeit big[str(year)] = big.apply(lambda row: 1*(year >= row['FIRST'].year and year <= row['LAST'].year), axis=1)

1 loops, best of 3: 6.51 s per loop

%timeit big[str(year)] = 1 * ((big['FIRST'].dt.year <= year) & (big['LAST'].dt.year >= year))

100 loops, best of 3: 8.33 ms per loop

这大约快了 780 倍。

关于python - 如何使用 datetime 加速 pandas 中 lambda 的应用方法，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/36514781/

25

4

0

文章推荐： python - 如何在 3 个字符串的所有可能组合上运行代码

文章推荐： python - 带 Spacy 管道的多线程 NLP

文章推荐： python - 用于分层聚类 Python 的三角形与方形距离矩阵？

文章推荐： python - 无法在上获取属性 'abc_h.py' >

python - datetime.datetime 对象的总和给出了错误 TypeError : unsupported operand type(s) for +: 'datetime.datetime' and 'datetime.datetime'
我正在尝试使用以下方法对 datetime.datetime 对象列表求和: from datetime import datetime, timedelta d= [datetime.datetim
python - (datetime.datetime.today()-datetime.datetime.today()).天给-1
我正在尝试这个 (datetime.datetime.today()-datetime.datetime.today()).days 给出 -1 并期待值 0 而不是我得到 -1。在这种情况下，我将结
Average of datetime.datetime.now() is overstated(Datetime.Datetime.now()的平均值被夸大了)
如果我列一个时间增量的列表，平均值比我对这些增量的微秒值求平均时要大。为什么会这样呢？。赠送。这是Linux上的Python3.8.10。
python - 为什么 datetime.datetime.now() - datetime.datetime.now() 等于 datetime.timedelta(-1, 86399, 999974)？
考虑以下片段: import datetime print(datetime.datetime.now() - datetime.datetime.now()) 在 x86_64 Linux 下的 P
python - SQLAlchemy DateTime 到 datetime.datetime
如何在 SQLAlchemy 查询中比较 DateTime 字段和 datetime.datetime 对象？例如，如果我这样做 candidates = session.query(User).f
python - 类型对象 'datetime.datetime' 没有属性 'datetime'
我收到以下错误: type object 'datetime.datetime' has no attribute 'datetime' 在下面一行: date = datetime.datetime
python - dateNow = datetime.datetime.now() 导致 AttributeError : type object 'datetime.datetime' has no attribute 'datetime' "while calculating age
尝试找出如何将当前日期锁定为变量，以从输入的 self.birthday 中减去。我已经查看了各种示例和链接，但无济于事......建议？ from datetime import datetime
python - pandas datetime 和 datetime datetime 之间的区别
您好，我有一些 datetime.datetime 格式的日期，我用它们来过滤带有 Pandas 时间戳的 Pandas 数据框。我刚刚尝试了以下方法并获得了 2 小时的偏移量: from datet
python - 为什么 datetime.now(datetime.timezone.utc) 和 datetime.datetime.utcnow() 之间存在差异
如果您调用 datetime.datetime.now(datetime.timezone.utc) 您会得到类似 datetime.datetime(2021, 9, 8, 1, 33, 19, 6
python:将 pywintyptes.datetime 转换为 datetime.datetime
我正在使用 pywin32 读取/写入 Excel 文件。我在 Excel 中有一些日期，以 yyyy-mm-dd hh:mm:ss 格式存储。我想将它们作为 datetime.datetime 对象
python - 为什么 datetime.datetime.now().timestamp() 和 datetime.datetime.utcnow().timestamp() 之间存在差异？
据我所知，自 Unix 纪元(1970-01-01 00:00:00 UTC)以来的秒数在全局各地应该是相同的，因为它固定为 UTC。现在，如果您所在的时区有几个小时 +/- UTC，为什么这样做会
python - 添加 datetime.datetime 和 datetime.time
我正在尝试添加 datetime.datetime 和 datetime.time 以获得一列。我正在尝试结合: import datetime as dt dt.datetime.combine(m
python - "import datetime"对比"from datetime import datetime"
我有一个脚本需要在脚本的不同行执行以下操作: today_date = datetime.date.today() date_time = datetime.strp(date_time_string
python - "type object ' datetime.datetime ' has no attribute ' datetime '"即使是"import datetime"
我在 AppEngine 上收到 type object 'datetime.datetime' has no attribute 'datetime' 错误，提示日期时间类型，但我的导入是 impo
python - 使用 datetime.now 给出 datetime.datetime 错误
所以我一直在使用 python 语言制作东西。我遇到了一些不太容易理解的错误: TypeError: 'datetime.datetime' object is not subscriptable (
python - datetime.date + datetime.timedelta = datetime.date 什么意思
当我运行时 from datetime import date, time, timedelta date(2012, 11, 1) + timedelta(0, 3600) 结果是 datetime
datetime - 如何将 chrono `DateTime` 实例转换为 `DateTime` ？
我的目标是转换 utc进入loc : use chrono::{Local, UTC, TimeZone}; let utc = chrono::UTC::now(); let loc = chron
python - 将 datetime.date 对象与 datetime.datetime 对象中的时间字符串组合
假设您有一个 datetime.date 对象，例如 datetime.date.today() 返回的对象。稍后您还会得到一个表示时间的字符串，它补充了日期对象。在 datetime.datet
python - 如何检查变量是否是 datetime.datetime 或 datetime.date 的实例
我试过了 In [16]: import datetime In [17]: now = datetime.datetime.utcnow() In [18]: isinstance(now, dat
python - 无法将 datetime.datetime 与 datetime.date 进行比较
我有以下代码并且收到上述错误。由于我是 python 新手，因此无法理解此处的语法以及如何修复错误: if not start or date < start: start = date 最佳答案有

首页

博学

6Ren·AI

商城

python - 如何使用 datetime 加速 pandas 中 lambda 的应用方法

解决方案

性能