- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我在尝试通过 pandas.read_csv()
的 parse_dates 解析少数日期时遇到了这个错误。在下面的代码片段中,我试图解析格式为 dd/mm/yy
的日期,这导致我进行了不正确的转换。在某些情况下,日期字段被视为月份,反之亦然。
为简单起见,在某些情况下 dd/mm/yy
会转换为 yyyy-dd-mm
而不是 yyyy-mm-dd
.
案例一:
04/10/96 is parsed as 1996-04-10, which is wrong.
案例二:
15/07/97 is parsed as 1997-07-15, which is correct.
案例三:
10/12/97 is parsed as 1997-10-12, which is wrong.
代码示例
import pandas as pd
df = pd.read_csv('date_time.csv')
print 'Data in csv:'
print df
print df['start_date'].dtypes
print '----------------------------------------------'
df = pd.read_csv('date_time.csv', parse_dates = ['start_date'])
print 'Data after parsing:'
print df
print df['start_date'].dtypes
电流输出
----------------------
Data in csv:
----------------------
start_date
0 04/10/96
1 15/07/97
2 10/12/97
3 06/03/99
4 //1994
5 /02/1967
object
----------------------
Data after parsing:
----------------------
start_date
0 1996-04-10
1 1997-07-15
2 1997-10-12
3 1999-06-03
4 1994-01-01
5 1967-02-01
datetime64[ns]
预期输出
----------------------
Data in csv:
----------------------
start_date
0 04/10/96
1 15/07/97
2 10/12/97
3 06/03/99
4 //1994
5 /02/1967
object
----------------------
Data after parsing:
----------------------
start_date
0 1996-10-04
1 1997-07-15
2 1997-12-10
3 1999-03-06
4 1994-01-01
5 1967-02-01
datetime64[ns]
更多评论:
我可以使用 date_parser
或 pandas.to_datetime()
来指定正确的日期格式。但就我而言,我有几个日期字段,例如 ['//1997', '/02/1967']
我需要为其转换 ['01/01/1997', '01/02/1967']
。 parse_dates
帮助我将这些类型的日期字段转换为预期的格式,而无需我编写额外的代码行。
有什么解决办法吗?
错误链接@GitHub:https://github.com/pydata/pandas/issues/13063
最佳答案
在 pandas 0.18.0
版本中,您可以添加参数 dayfirst=True
然后它就可以工作了:
import pandas as pd
import io
temp=u"""start_date
04/10/96
15/07/97
10/12/97
06/03/99
//1994
/02/1967
"""
#after testing replace io.StringIO(temp) to filename
df = pd.read_csv(io.StringIO(temp), parse_dates = ['start_date'], dayfirst=True)
start_date
0 1996-10-04
1 1997-07-15
2 1997-12-10
3 1999-03-06
4 1994-01-01
5 1967-02-01
另一种解决方案:
您可以使用 to_datetime
进行解析使用不同的参数 format
和 errors='coerce'
然后是 combine_first
:
date1 = pd.to_datetime(df['start_date'], format='%d/%m/%y', errors='coerce')
print date1
0 1996-10-04
1 1997-07-15
2 1997-12-10
3 1999-03-06
4 NaT
5 NaT
Name: start_date, dtype: datetime64[ns]
date2 = pd.to_datetime(df['start_date'], format='/%m/%Y', errors='coerce')
print date2
0 NaT
1 NaT
2 NaT
3 NaT
4 NaT
5 1967-02-01
Name: start_date, dtype: datetime64[ns]
date3 = pd.to_datetime(df['start_date'], format='//%Y', errors='coerce')
print date3
0 NaT
1 NaT
2 NaT
3 NaT
4 1994-01-01
5 NaT
Name: start_date, dtype: datetime64[ns]
print date1.combine_first(date2).combine_first(date3)
0 1996-10-04
1 1997-07-15
2 1997-12-10
3 1999-03-06
4 1994-01-01
5 1967-02-01
Name: start_date, dtype: datetime64[ns]
关于python - 当设置 parse_date = ['column name' 时,pd.read_csv 无法正确解析日期/月份字段],我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36998540/
这段代码: import pandas as pd from StringIO import StringIO data = "date,c1\n2012-07-31 02:00,1.1\n2012-
我正在将日期时间格式的数据导出到 csv。当我将它导入回来时,我需要能够在没有任何列名或列号引用的情况下将数据作为日期读取。 看起来 Pandas read_csv 具有将日期自动解析为日期时间格式的
我正在使用以下内容来读取 csv 文件:- seller_in = pd.read_csv(seller_file, names=["MID", "START_DAY"], sep='\t', par
我将以下格式的“日期”存储为字符串,请参见 2 个示例: vrijdag 1 mei 2020, donderdag 4 juni 2020 现在我想 date_parse 但问题是这不适用于荷兰语日
我有这个 data_frame 示例: name,time_0 name,22/04/2014 00:44 OTROGUAPOSUELTO,22/04/2014 13:20 我想解析 time_0,但
以下代码无法将我的日期列解析为 csv 文件中的日期。 data=pd.read_csv('c:/data.csv',parse_dates=True,keep_date_col = True) 或
我正在尝试以下列格式加载包含 OHLC 数据的 csv 文件。 In [49]: !head '500008.csv' 03 Jan 2000,12.85,13.11,12.74,13.11,9765
我正在读取具有这种结构的 csv 文件: 2008,1,283.7,8 2008,2,323.1,8 2008,3,270.7,2 2008,4,353.6,2 年、月、数据、观察 我正在通过这种方式
我试图在保存到 DateField 之前使用 parse_date 将字符串转换为日期时间对象,但它似乎一直没有返回任何内容。我做错了什么吗? >>> parse_date('13/07/2016')
我试图在保存到 DateField 之前使用 parse_date 将字符串转换为日期时间对象,但它似乎一直没有返回任何内容。我做错了什么吗? >>> parse_date('13/07/2016')
我遇到了一个问题,我认为 Pandas 的聪明人已经解决了,但我似乎找不到任何东西,所以我在这里。 我遇到的问题源于一些错误的数据,我希望 pandas 能够在读取时进行过滤。数据如下所示: Stat
从 MySQL 数据库检索数据时,Pandas parse_date 应该如何工作? Pandas 0.23 的文档提供此信息: parse_dates : list or dict, default
我有一个包含几列的 csv,包括“日期”和“时间”。我读取了 csv 并将“日期”和“时间”列设置为索引。 import pandas as pd data_file = 'data.csv' dat
我有一个 CSV 文件(如下示例),我正在尝试将其加载到数据框中并让 pandas 自动解析日期。 "http://www.example.com","http://example.com","tes
我试图读取一个 csv 文件 使用 df = pd.read_csv('Test.csv',index_col=0,parse_dates=[0],header=None,names=['Open',
是否可以通过一行调用来读取此文件: http://www.cpc.ncep.noaa.gov/products/precip/CWlink/daily_ao_index/monthly.ao.inde
我的输入 CSV 有两个时间戳格式的日期时间列“开始时间”和“结束时间”。 我可以解析时间戳,但无法将结果列设为 datetime64?! 无论我是否使用自定义日期格式化程序mdb_to_dateti
我在尝试通过 pandas.read_csv() 的 parse_dates 解析少数日期时遇到了这个错误。在下面的代码片段中,我试图解析格式为 dd/mm/yy 的日期,这导致我进行了不正确的转换。
我正在使用 sqlalchemy,它允许对最近发布的 0.14.1 版本的 pandas 进行 SQL 查询。 import pandas as pd from dateutil import par
我是一名优秀的程序员,十分优秀!