gpt4 book ai didi

Java正则表达式跨多行提取文本序列

转载 作者:搜寻专家 更新时间:2023-11-01 02:59:09 27 4
gpt4 key购买 nike

给定一段文本摘录,如

Preface (optional, up to multiple lines)
Main : sequence1
sequence2
sequence3
sequence4
Epilogue (optional, up to multiple lines)

哪个 Java 正则表达式可用于提取所有序列(即 sequence1sequence2sequence3 , sequence4 上面)?例如,Matcher.find() 循环?

每个“序列”前面都有并且可能包含 0 个或多个空格(包括制表符)。

下面的正则表达式

(?m).*Main(?:[ |t]+:(?:[ |t]+(\S+)[\r\n])+

只产生第一个序列(sequence1)。

最佳答案

您可以使用以下 regex :

(?m)(?:\G(?!\A)[^\S\r\n]+|^Main\s*:\s*)(\S+)\r?\n?

详细信息:

  • (?m) - 开启多行模式
  • (?:\G(?!\A)[^\S\r\n]+|^Main\s*:\s*) - 两者之一:
    • \G(?!\A)[^\S\r\n]+ - 上一次成功匹配的结尾 (\G(?!\A)) 然后是 1+ 个水平空格 ([^\S\r\n]+, 可以用 [\p{Zs}\t]+ 或者 [\s&&[^\r\n]]+)
    • | - 或者
    • ^Main\s*:\s* - 行首,Main,0+ 个空格,:,0+ 个空格
  • (\S+) - 第 1 组捕获 1+ 个非空白符号
  • \r?\n? - 一个可选的 CR 和一个可选的 LF。

请参阅下面的 Java 代码:

String p = "(?m)(?:\\G(?!\\A)[^\\S\r\n]+|^Main\\s*:\\s*)(\\S+)\r?\n?";
String s = "Preface (optional, up to multiple lines)...\nMain : sequence1\n sequence2\n sequence3\n sequence4\nEpilogue (optional, up to multiple lines)";
Matcher m = Pattern.compile(p).matcher(s);
while(m.find()) {
System.out.println(m.group(1));
}

关于Java正则表达式跨多行提取文本序列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41253003/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com