gpt4 book ai didi

python - 具有不同日期解析器的 Pandas read_csv

转载 作者:太空宇宙 更新时间:2023-11-03 11:17:08 24 4
gpt4 key购买 nike

我有一个包含时间序列数据的 csv 文件,第一列是格式为 %Y:%m:%d 的日期,第二列是格式为 ' %H:%M:%S'。我想将此 csv 文件导入多索引数据框或面板对象。

使用这段代码,它已经可以工作了:

    _file_data = pd.read_csv(_file,
sep=",",
header=0,
index_col=['Date', 'Time'],
thousands="'",
parse_dates=True,
skipinitialspace=True
)

它以下列格式返回数据:

Date         Time                   Volume
2016-01-04 2018-04-25 09:01:29 53645
2018-04-25 10:01:29 123
2018-04-25 10:01:29 1345
....
2016-01-05 2018-04-25 10:01:29 123
2018-04-25 12:01:29 213
2018-04-25 10:01:29 123

第一个问题:我想将第二个索引显示为纯时间对象而不是日期时间。为此,我必须在 read_csv 函数中声明两个不同的日期传递器,但我不知道如何做。做到这一点的“最佳”方法是什么?

第二个问题:创建 Dataframe 后,我将其转换为面板对象。你会建议这样做吗?面板对象是这种数据结构的更好选择吗?面板对象的优点(缺点)是什么?

最佳答案

第一个问题:

您可以创建多个转换器并在字典中定义解析器:

import pandas as pd

temp=u"""Date,Time,Volume
2016:01:04,09:00:00,53645
2016:01:04,09:20:00,0
2016:01:04,09:40:00,0
2016:01:04,10:00:00,1468
2016:01:05,10:00:00,246
2016:01:05,10:20:00,0
2016:01:05,10:40:00,0
2016:01:05,11:00:00,0
2016:01:05,11:20:00,0
2016:01:05,11:40:00,0
2016:01:05,12:00:00,213"""

def converter1(x):
#convert to datetime and then to times
return pd.to_datetime(x).time()

def converter2(x):
#define format of datetime
return pd.to_datetime(x, format='%Y:%m:%d')

#after testing replace 'pd.compat.StringIO(temp)' to 'filename.csv'
df = pd.read_csv(pd.compat.StringIO(temp),
index_col=['Date','Time'],
thousands="'",
skipinitialspace=True,
converters={'Time': converter1, 'Date': converter2})

print (df)
Volume
Date Time
2016-01-04 09:00:00 53645
09:20:00 0
09:40:00 0
10:00:00 1468
2016-01-05 10:00:00 246
10:20:00 0
10:40:00 0
11:00:00 0
11:20:00 0
11:40:00 0
12:00:00 213

有时可以使用内置的解析器,例如如果日期格式为 YY-MM-DD:

import pandas as pd

temp=u"""Date,Time,Volume
2016-01-04,09:00:00,53645
2016-01-04,09:20:00,0
2016-01-04,09:40:00,0
2016-01-04,10:00:00,1468
2016-01-05,10:00:00,246
2016-01-05,10:20:00,0
2016-01-05,10:40:00,0
2016-01-05,11:00:00,0
2016-01-05,11:20:00,0
2016-01-05,11:40:00,0
2016-01-05,12:00:00,213"""

def converter(x):
#define format of datetime
return pd.to_datetime(x).time()

#after testing replace 'pd.compat.StringIO(temp)' to 'filename.csv'
df = pd.read_csv(pd.compat.StringIO(temp),
index_col=['Date','Time'],
parse_dates=['Date'],
thousands="'",
skipinitialspace=True,
converters={'Time': converter})

print (df.index.get_level_values(0))
DatetimeIndex(['2016-01-04', '2016-01-04', '2016-01-04', '2016-01-04',
'2016-01-05', '2016-01-05', '2016-01-05', '2016-01-05',
'2016-01-05', '2016-01-05', '2016-01-05'],
dtype='datetime64[ns]', name='Date', freq=None)

最后可能的解决方案是将 datetime 转换为 MultiIndex 中的时间 set_levels - 处理后:

df.index = df.index.set_levels(df.index.get_level_values(1).time, level=1)
print (df)
Volume
Date Time
2016-01-04 09:00:00 53645
09:20:00 0
09:40:00 0
10:00:00 1468
2016-01-05 10:00:00 246
10:00:00 0
10:20:00 0
10:40:00 0
11:00:00 0
11:20:00 0
11:40:00 213

第二个问题:

Panel 在 pandas 0.20.+ 中是 deprecated并将在未来的版本中删除。

关于python - 具有不同日期解析器的 Pandas read_csv,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50098753/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com