gpt4 book ai didi

python - 在 Python 中使用正则表达式匹配日期?

转载 作者:太空狗 更新时间:2023-10-29 21:29:45 26 4
gpt4 key购买 nike

我知道有一些与我的问题类似的问题已经得到解答,但在通读它们之后,我仍然没有找到我正在寻找的解决方案。

使用 Python 3.2.2,我需要匹配“月、日、年”,月是一个字符串,日是不超过 30、31 或 28 的两位数字,代表二月,不超过 29 代表闰年的二月。 (基本上是真实有效的日期)

这是我目前所拥有的:

pattern = "(January|February|March|April|May|June|July|August|September|October|November|December)[,][ ](0[1-9]|[12][0-9]|3[01])[,][ ]((19|20)[0-9][0-9])"
expression = re.compile(pattern)
matches = expression.findall(sampleTextFile)

我仍然不太熟悉正则表达式语法,所以我可能在其中包含不必要的字符(用于逗号和空格的 [,][ ] 感觉像是错误的处理方式),但是当我尝试为了匹配我的示例文本文件中的“1991 年 1 月 26 日”,打印出“匹配项”中的项目是 ('January', '26', '1991', '19')。

为什么最后会出现多余的'19'?

另外,我可以在我的正则表达式中添加或更改哪些内容以允许我正确验证日期?我现在的计划是接受几乎所有的日期,然后通过将日期分组与月份和年份分组进行比较以查看日期是否应为 <31,30,29,28

来使用高级构造将它们剔除

非常感谢任何帮助,包括对我如何设计正则表达式的建设性批评。

最佳答案

这是一种制作正则表达式的方法,该正则表达式将匹配您所需格式的任何日期(尽管您显然可以调整逗号是否可选、添加月份缩写等):

years = r'((?:19|20)\d\d)'
pattern = r'(%%s) +(%%s), *%s' % years

thirties = pattern % (
"September|April|June|November",
r'0?[1-9]|[12]\d|30')

thirtyones = pattern % (
"January|March|May|July|August|October|December",
r'0?[1-9]|[12]\d|3[01]')

fours = '(?:%s)' % '|'.join('%02d' % x for x in range(4, 100, 4))

feb = r'(February) +(?:%s|%s)' % (
r'(?:(0?[1-9]|1\d|2[0-8])), *%s' % years, # 1-28 any year
r'(?:(29), *((?:(?:19|20)%s)|2000))' % fours) # 29 leap years only

result = '|'.join('(?:%s)' % x for x in (thirties, thirtyones, feb))
r = re.compile(result)
print result

然后我们有:

>>> r.match('January 30, 2001') is not None
True
>>> r.match('January 31, 2001') is not None
True
>>> r.match('January 32, 2001') is not None
False
>>> r.match('February 32, 2001') is not None
False
>>> r.match('February 29, 2001') is not None
False
>>> r.match('February 28, 2001') is not None
True
>>> r.match('February 29, 2000') is not None
True
>>> r.match('April 30, 1908') is not None
True
>>> r.match('April 31, 1908') is not None
False

您可能会问,这个出色的正则表达式是什么?

>>> print result
(?:(September|April|June|November) +(0?[1-9]|[12]\d|30), *((?:19|20)\d\d))|(?:(January|March|May|July|August|October|December) +(0?[1-9]|[12]\d|3[01]), *((?:19|20)\d\d))|(?:February +(?:(?:(0?[1-9]|1\d|2[0-8]), *((?:19|20)\d\d))|(?:(29), *((?:(?:19|20)(?:04|08|12|16|20|24|28|32|36|40|44|48|52|56|60|64|68|72|76|80|84|88|92|96))|2000))))

(我最初打算开玩笑地列举可能的日期,但我基本上最终手写了除了四的倍数之外的整个粗俗的东西。)

关于python - 在 Python 中使用正则表达式匹配日期?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10308970/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com