gpt4 book ai didi

python - 使用 pandas 格式化不一致的日期数据

转载 作者:行者123 更新时间:2023-12-01 04:45:27 25 4
gpt4 key购买 nike

我想知道如何解决 pandas 数据格式不一致的问题。最初,我使用正则表达式从大量 URL 数据集中提取日期。这非常有效,但是提取的日期之间存在不一致的日期格式:

dates
20140609
20140624
20140404
3/18/14
3/10/14
3/14/2014
20140807
20140806
2014-07-18

如您所见,此数据集中的日期数据格式不一致。有没有办法修复此格式,以便所有日期都具有相同的格式?

df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 122270 entries, 0 to 122269
Data columns (total 4 columns):
id 119534 non-null float64
x1 122270 non-null int64
url 122270 non-null object
date 122025 non-null object
dtypes: float64(1), int64(1), object(2)
memory usage: 4.7+ MB

最佳答案

使用to_datetime似乎男人/女人足以处理不一致的格式:

In [77]:

df['dates'] = pd.to_datetime(df['dates'])
df.info()
<class 'pandas.core.frame.DataFrame'>
Int64Index: 9 entries, 0 to 8
Data columns (total 1 columns):
dates 9 non-null datetime64[ns]
dtypes: datetime64[ns](1)
memory usage: 144.0 bytes
In [78]:

df
Out[78]:
dates
0 2014-06-09
1 2014-06-24
2 2014-04-04
3 2014-03-18
4 2014-03-10
5 2014-03-14
6 2014-08-07
7 2014-08-06
8 2014-07-18

对于您的示例数据集 to_datetime 工作正常,如果它不适合您,那将是因为您有一些它无法转换的格式,您可以设置参数 coerce=True 将设置任何无法转换为 NaT 的值或 errors='raise' 以报告任何问题。

关于python - 使用 pandas 格式化不一致的日期数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29516616/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com