gpt4 book ai didi

java - 如何使用 Java Regex 删除文本中的标题?

转载 作者:太空宇宙 更新时间:2023-11-04 08:02:14 24 4
gpt4 key购买 nike

我正在开发一个项目,在该项目中我阅读了大量具有相似标题的文档。标题以相同的单词开头和结尾,但开头和结尾之间的单词可能不同。我正在尝试使用模式和匹配器来找到这些,但遇到了麻烦。这是我的代码:

Pattern docHeader = Pattern.compile("HEADER[ ]*:[.\\n\\t ]*header end");

因此标题大致如下所示:

HEADER:

random junk

random junk

header end

Document information start.

我试图在开始清理文本之前删除所有标题,以节省后端时间。但它从来没有找到我的模式。有建议吗?

最佳答案

您可以尝试此模式作为正则表达式解决方案:

Pattern docHeader = Pattern.compile("HEADER.*header end",Pattern.DOTALL);

关于java - 如何使用 Java Regex 删除文本中的标题?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12666367/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com