gpt4 book ai didi

java - 复杂的文本解析 - 请帮忙弄清楚

转载 作者:行者123 更新时间:2023-11-30 04:37:47 24 4
gpt4 key购买 nike

我的算法设计比较差,问题比较复杂,请看一下。我目前正在 Java/Groovy 领域工作。

我有一些如下所示的文本:

AAAAA  
AAAAA
CCCCC
any stuff here
111
any stuff here
AAAAA
stuff
AAAAA
stuff
AAAAA

BBBBB
stuff
222
stuff
BBBBB

我的挑战是抓取所有格式为 AAAAA stuff 111 stuff AAAAA 的字符串,而不抓取任何周围的文本。您可以看到字符串中有多个 AAAAA,但我必须只抓取最接近 111 和 222 的字符串,然后对所有此类字符串执行此操作。

我的正则表达式(不起作用)如下所示:

/(\w{8}|\w{11}).*?(\w{3}).*?\1/  

我一直在使用它们中的一些,它们要么抓取太多文本,要么执行太慢...如果有人知道我应该使用什么来解决此类问题,请告诉我。

编辑:这些是我想要匹配的内容:

AAAAA
CCCCC
any stuff here
111
any stuff here
AAAAA

BBBBB  
stuff
222
stuff
BBBBB

我想说这很像解析不正确标记的 XML。不管怎样,感谢您的浏览。

最佳答案

使用正则表达式模式

(?s)\b(\w{5})\b(?:(?!\1).)*?\b\w{3}\b(?:(?!\1).)*?\1

关于java - 复杂的文本解析 - 请帮忙弄清楚,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13036728/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com