gpt4 book ai didi

python - 用正则表达式替换 Pandas 数据框中字符串的特定部分

转载 作者:太空宇宙 更新时间:2023-11-04 03:06:07 25 4
gpt4 key购买 nike

我的数据框有一个日期列(目前是字符串)。我正在尝试解决列的问题。

df[:15]

Date Customer ID
0 01/25/2016 104064596300
1 02/28/2015 102077474472
2 11/17/2016 106430081724
3 02/24/2016 107770391692
4 10/05/2016 106523680888
5 02/24/2016 107057691592
6 11/24/2015 102472820188
7 10/12/2016 107195498128
8 01/05/2016 104796266660
9 09/30/2016 107812562924
10 10/13/2015 102809057000
11 11/21/2016 107379017712
12 11/08/2015 106642145040
13 02/26/2015 107862343816
14 10/16/2016 107383084928

我的数据应该在以下日期范围内:2015 年 9 月到 2016 年 2 月。

一些数据混淆了它们的年份(例如,请参见上面的第 2 行 - 2016 年 11 月 17 日!)

我想做的是更改日期不正确的观测值的年份。

我玩过 Pandas 中的 replace() 命令,但无法得出有效的命令:

df.Date.str.replace(('^(09|10|11|12)\/\d\d\/2016$'), '2015')

0 01/25/2016
1 02/28/2015
2 2015
3 02/24/2016
4 2015
5 02/24/2016
6 11/24/2015
7 2015
8 01/05/2016
9 2015
10 10/13/2015
11 2015
12 11/08/2015
13 02/26/2015
14 2015
15 12/17/2015
16 01/05/2015
17 01/21/2015
18 2015
19 2015
20 02/06/2016
21 10/06/2015
22 02/18/2016

具体来说,我只是想根据某些条件更改每行的最后 4 位数字(年份):

  1. 如果月份在九月到十二月(09 到 12)之间并且有年份2016年,把这次观测的年份改成2015年

  2. 如果月份是一月或二月(01 或 02)并且年份是 2015 年,则将此观察的年份更改为 2016

我上面写的命令确定了场景 1) 的正确观察结果,但我无法替换最后 4 位数字并将结果输入回原始数据框中。

最后一点:您可能会想,为什么我不直接将列更改为日期时间类型,然后根据需要添加或减去年份呢?如果我尝试这样做,我会遇到错误,因为一些观察的日期是:2/29/2015 -> 你会遇到错误,因为 2015 年没有 2 月 29 日!

最佳答案

不要将日期视为字符串。可以先将date的字符串格式转为timestamp,再切片。

import pandas ad pd
df.loc[:, 'Date'] = pd.DatetimeIndex(df['Date'], name='Date')
df = df.set_index('Date')
df['2015-09': '2016-02']

更新:

df.loc[:, 'year_month'] = df.Date.map(lambda s: int(s[-4:]+s[:3]))
df.query('201509<=year_month<=201602').drop('year_month', axis=1)

对不起,我误解了你的问题。

def transform(date_string):
year = date_string[-4:]
month = date_string[:2]
day = date_string[3:5]
if year== '2016' and month in ['09', '10', '11', '12']:
return month + '/' + day + '/' + str(int(year)-1)
elif year == '2015' and month in ['01', '02', '03']:
return month + '/' + day + '/' + str(int(year)+1)
else:
return date_string

df.loc[:, 'Date'] = df.Date.map(transform)

关于python - 用正则表达式替换 Pandas 数据框中字符串的特定部分,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39402154/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com