gpt4 book ai didi

java - 如果后面的组没有被捕获,则在第一次捕获组后忽略空格

转载 作者:塔克拉玛干 更新时间:2023-11-02 08:51:50 26 4
gpt4 key购买 nike

我想捕获按字母顺序指定的日期。可以是以下形式之一

  • 2013 年 1 月 1 日
  • 2013 年 1 月 1 日
  • 1 月 1 日
  • 1 月 1 日
  • 2013 年 1 月 1 日
  • 一月

此外,它们会出现在句子中。例如

“我们可以在一月份的某个时间下午见面吗?”

我在 java 中使用以下正则表达式

((?<month>jan(uary)?|feb(ruary)?|mar(ch)?|apr(il)?|may|jun(e)?|jul(y)?|aug(ust)?|sep(t?|tember)?|oct(ober)?|nov(ember)?|dec(ember)?)((\\s+)?(?<date>\\d+)?(st|nd|rd|th))?(\\s+)?,?(\\s+)?(?<year>(20)\\d\\d)?)

((?<date>\\d+)?(st|nd|rd|th)?\\s+(?<month>jan(uary)?|feb(ruary)?|mar(ch)?|apr(il)?|may|jun(e)?|jul(y)?|aug(ust)?|sep(t?|tember)?|oct(ober)?|nov(ember)?|dec(ember)?)(\\s+)?,?(?<year>(19|20)\\d\\d)?)

捕获正则表达式后,我需要指出字符串中标记的确切位置。

当我查看 Matcher.end() 返回的索引时,我的表达式似乎也捕获了一月后的空间。我确实想捕获像“Jan 1st”这样的表达式,但只有在下一个捕获组匹配是可能的时候。

是否可以修改上面的正则表达式来做到这一点?

最佳答案

扩展模式以提高可读性:

(
(?<month>
jan(uary)?
| feb(ruary)?
| mar(ch)?
| apr(il)?
| may
| jun(e)?
| jul(y)?
| aug(ust)?
| sep(t?|tember)?
| oct(ober)?
| nov(ember)?
| dec(ember)?
)
(
(\\s+)?
(?<date>\\d+)?
(st|nd|rd|th)
)?
(\\s+)?
,?
(\\s+)?
(?<year>(20)\\d\\d)?
)

即使年份不匹配,年份之前的空格也可以匹配。此外,即使日期不匹配,日期后缀也可以匹配。

清洁和修复我得到的图案:

\\b
(?<month>
jan(uary)?
| feb(ruary)?
| mar(ch)?
| apr(il)?
| may
| jun(e)?
| jul(y)?
| aug(ust)?
| sep(t|tember)?
| oct(ober)?
| nov(ember)?
| dec(ember)?
)
(
\\s*
(?<date>\\d+)
(st|nd|rd|th)?
)?
(
\\s*
,?
\\s*
(?<year>(19|20)\\d\\d)
)?
\\b

我删除了外部组,因为无论如何您都会将其作为组 0。 t?sep(t?|tember)?已更改为 t .所有 (\\s+)?已更改为等效的 \\s* .我移动了?来自 (?<date>\\d+)?(st|nd|rd|th) .我将年份包裹在一个组中,并移动了 ?来自 (?<year>20\\d\\d)到那个。我添加了单词边界 ( \\b ),这样它就不会在单词中间开始或结束。

作为一行:

\\b(?<month>jan(uary)?|feb(ruary)?|mar(ch)?|apr(il)?|may|jun(e)?|jul(y)?|aug(ust)?|sep(t|tember)?|oct(ober)?|nov(ember)?|dec(ember)?)(\\s*(?<date>\\d+)(st|nd|rd|th)?)?(\\s*,?\\s*(?<year>(19|20)\\d\\d))?\\b

将它与你的第二个模式结合起来:

\\b
(
(?<month1>
jan(uary)?
| feb(ruary)?
| mar(ch)?
| apr(il)?
| may
| jun(e)?
| jul(y)?
| aug(ust)?
| sep(t|tember)?
| oct(ober)?
| nov(ember)?
| dec(ember)?
)
(
\\s*
(?<date1>\\d+)
(st|nd|rd|th)?
)?
|
(?<date2>\\d+)
(st|nd|rd|th)?
\\s*
(?<month2>
jan(uary)?
| feb(ruary)?
| mar(ch)?
| apr(il)?
| may
| jun(e)?
| jul(y)?
| aug(ust)?
| sep(t|tember)?
| oct(ober)?
| nov(ember)?
| dec(ember)?
)
)
(
\\s*
,?
\\s*
(?<year>(19|20)\\d\\d)
)?
\\b

作为一行:

\\b((?<month1>jan(uary)?|feb(ruary)?|mar(ch)?|apr(il)?|may|jun(e)?|jul(y)?|aug(ust)?|sep(t|tember)?|oct(ober)?|nov(ember)?|dec(ember)?)(\\s*(?<date1>\\d+)(st|nd|rd|th)?)?|(?<date2>\\d+)(st|nd|rd|th)?\\s*(?<month2>jan(uary)?|feb(ruary)?|mar(ch)?|apr(il)?|may|jun(e)?|jul(y)?|aug(ust)?|sep(t|tember)?|oct(ober)?|nov(ember)?|dec(ember)?))(\\s*,?\\s*(?<year>(19|20)\\d\\d))?\\b

关于java - 如果后面的组没有被捕获,则在第一次捕获组后忽略空格,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17456670/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com