- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我希望将大约 10-20M ISO 日期时间字符串以微秒精度快速转换为 datetime64,以用作 pandas 中的 DataFrame 索引。
我使用的是 pandas 0.9,并尝试了 git 上建议的解决方案,但我发现它需要 20 到 30 分钟,或者永远不会完成。
我想我已经找到了问题所在。比较这两者的速度:
rng = date_range('1/1/2000', periods=2000000, freq='ms')
strings = [x.strftime('%Y-%m-%d %H:%M:%S.%f') for x in rng]
timeit to_datetime(strings)
在我的笔记本电脑上,大约 300 毫秒。
rng = date_range('1/1/2000', periods=2000000, freq='ms')
strings = [x.strftime('%Y%m%dT%H%M%S.%f') for x in rng]
timeit to_datetime(strings)
在我的笔记本电脑上,永远和一天。
我现在可能只是更改生成时间戳的 C++ 代码,将它们放在更冗长的 ISO 格式中,因为遍历和修复数千万个邮票的格式可能非常慢......
最佳答案
快速解析器代码仅处理带有破折号和冒号的标准 ISO-8601——正如您所见,当字符串格式正确时,它的速度非常快。如果可以说服您,代码在 GitHub 上,并且肯定可以改进以处理更多情况(最好不要过多降低标准格式的速度)。
作为部分令人满意的解决方法,您可以使用 datetime.strptime
将字符串转换为 datetime.datetime
,然后将该结果传递给 to_datetime
:
In [4]: paste
rng = date_range('1/1/2000', periods=2000000, freq='ms')
strings = [x.strftime('%Y%m%dT%H%M%S.%f') for x in rng]
## -- End pasted text --
In [5]: iso_strings = [x.strftime('%Y-%m-%d %H:%M:%S.%f') for x in rng]
In [6]: %timeit result = to_datetime(iso_strings)
1 loops, best of 3: 479 ms per loop
In [7]: f = lambda x: datetime.strptime(x, '%Y%m%dT%H%M%S.%f')
In [8]: f(strings[0])
Out[8]: datetime.datetime(2000, 1, 1, 0, 0)
In [9]: %time result = to_datetime(map(f, strings))
CPU times: user 48.47 s, sys: 0.01 s, total: 48.48 s
Wall time: 48.54 s
它有 100 倍的不同,但比慢 1000+% 要好得多。我敢打赌 to_datetime
可以改进为使用 strptime 的 C 版本,这样速度会快得多。我想留给读者练习
关于python - Pandas 将 ISO 字符串转换为 datetime64,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13133458/
我正在尝试使用以下方法对 datetime.datetime 对象列表求和: from datetime import datetime, timedelta d= [datetime.datetim
我正在尝试这个 (datetime.datetime.today()-datetime.datetime.today()).days 给出 -1 并期待值 0 而不是我得到 -1。在这种情况下,我将结
如果我列一个时间增量的列表,平均值比我对这些增量的微秒值求平均时要大。为什么会这样呢?。赠送。这是Linux上的Python3.8.10。
考虑以下片段: import datetime print(datetime.datetime.now() - datetime.datetime.now()) 在 x86_64 Linux 下的 P
如何在 SQLAlchemy 查询中比较 DateTime 字段和 datetime.datetime 对象? 例如,如果我这样做 candidates = session.query(User).f
我收到以下错误: type object 'datetime.datetime' has no attribute 'datetime' 在下面一行: date = datetime.datetime
尝试找出如何将当前日期锁定为变量,以从输入的 self.birthday 中减去。我已经查看了各种示例和链接,但无济于事......建议? from datetime import datetime
您好,我有一些 datetime.datetime 格式的日期,我用它们来过滤带有 Pandas 时间戳的 Pandas 数据框。我刚刚尝试了以下方法并获得了 2 小时的偏移量: from datet
如果您调用 datetime.datetime.now(datetime.timezone.utc) 您会得到类似 datetime.datetime(2021, 9, 8, 1, 33, 19, 6
我正在使用 pywin32 读取/写入 Excel 文件。我在 Excel 中有一些日期,以 yyyy-mm-dd hh:mm:ss 格式存储。我想将它们作为 datetime.datetime 对象
据我所知,自 Unix 纪元(1970-01-01 00:00:00 UTC)以来的秒数在全局各地应该是相同的,因为它固定为 UTC。 现在,如果您所在的时区有几个小时 +/- UTC,为什么这样做会
我正在尝试添加 datetime.datetime 和 datetime.time 以获得一列。我正在尝试结合: import datetime as dt dt.datetime.combine(m
我有一个脚本需要在脚本的不同行执行以下操作: today_date = datetime.date.today() date_time = datetime.strp(date_time_string
我在 AppEngine 上收到 type object 'datetime.datetime' has no attribute 'datetime' 错误,提示日期时间类型,但我的导入是 impo
所以我一直在使用 python 语言制作东西。我遇到了一些不太容易理解的错误: TypeError: 'datetime.datetime' object is not subscriptable (
当我运行时 from datetime import date, time, timedelta date(2012, 11, 1) + timedelta(0, 3600) 结果是 datetime
我的目标是转换 utc进入loc : use chrono::{Local, UTC, TimeZone}; let utc = chrono::UTC::now(); let loc = chron
假设您有一个 datetime.date 对象,例如 datetime.date.today() 返回的对象。 稍后您还会得到一个表示时间的字符串,它补充了日期对象。 在 datetime.datet
我试过了 In [16]: import datetime In [17]: now = datetime.datetime.utcnow() In [18]: isinstance(now, dat
我有以下代码并且收到上述错误。由于我是 python 新手,因此无法理解此处的语法以及如何修复错误: if not start or date < start: start = date 最佳答案 有
我是一名优秀的程序员,十分优秀!