gpt4 book ai didi

python - Pyspark 拆分日期字符串

转载 作者:行者123 更新时间:2023-11-28 22:19:43 25 4
gpt4 key购买 nike

我有一个数据框,想要拆分 start_date 列(字符串和年份)并在新列(第 4 列)中只保留年份:

 ID           start_date         End_date  start_year
|01874938| August 2013| December 2014| 2013|
|00798252| March 2009| May 2015| 2009|
|02202785| July 2, 2014|January 15, 2016| 2, |
|01646125| November 2012| November 2015| 2012|

如您所见,我可以拆分日期并保留年份。但是对于第 3 行中的日期:“2014 年 7 月 2 日”,结果是“2,”而不是 2014 年。

这是我的代码:

split_col = fn.split(df7_ct_map['start_date']  , ' ')
df = df7_ct_map.withColumn('NAME1', split_col.getItem(0))
df = dff.withColumn('start_year', split_col.getItem(1))

最佳答案

您可以使用正则表达式而不是在 , 上拆分。

df.withColumn('start_year', regexp_extract(df['start_date'], '\\d{4}', 0))

这将匹配 4 个连续数字,即一年。

关于python - Pyspark 拆分日期字符串,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49508842/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com