gpt4 book ai didi

Java 正则表达式 - 试图从以特定字符串开头的行中分离出文本?

转载 作者:行者123 更新时间:2023-11-30 09:03:47 24 4
gpt4 key购买 nike

编辑:确保在尝试使用组之前调用 Matcher#matches 或 Matcher#find! Source


我正在尝试做一些非常简单的事情 - 我正在尝试从以单词开头的行中获取文本。在本例中,单词是 Location:。我正在阅读原始 HTML,所以感兴趣的行实际上是这样的:

      Location: Main Hall

显然,我希望 Main Hall 返回给我,以便我可以读取我的应用程序的位置。

这是我试过的:

String t_location = "";
Pattern t_pat = Pattern.compile("^[\\s]+?(?s)Location: (?-s)(.*)$");
Matcher t_match = t_pat.matcher(t_inner_html);
t_location = t_match.group(0);

但我一直收到错误:

java.lang.IllegalStateException: 到目前为止没有成功匹配

打破我的正则表达式,这就是(我认为)我正在做的:

^ - 从行首开始阅读

[\\s]+? - 使用不情愿的限定符,读取行首的空白,直到我们遇到其他内容

(?s)Location: (?-s) - 读取文字字符串“Location:”

(.*)$ - 读取字符(换行符除外)直到行尾

这就是我认为我正在做的事情。我不太擅长正则表达式,但我试图按照文档进行操作,但无济于事。有人可以帮帮我吗?


例如,字符串 t_inner_html 如下所示:

8/28/2014
Alumni Reunion
Location: Main Hall

<span class="extra-info">
Blah blah blah....
</span>

最佳答案

如果这不是 Java,则此正则表达式应该可以工作,具体取决于您的行尾 (EOL) 字符序列是什么:

(.|\n)*Location:\s*(.*)\n

你想要的字符串在组索引1 .

现在因为这个正则表达式将在 Java String 中,并且由于反斜杠是 Java 字符串中的转义字符,因此您实际上必须使用双反斜杠来污染纯正则表达式:

Pattern t_pat = Pattern.compile("(.|\\n)*Location:\\s*(.*)\\n");

总的来说,要测试正则表达式,我非常喜欢这个工具:

http://regexpal.com/

这是一个交互式测试器,当您的示例输入与正则表达式匹配时,它会逐渐突出显示您的示例输入。当您编辑正则表达式或更改示例输入时,匹配的突出显示将实时更新。这不支持所需的 Java 双反斜杠,因此在工具中使用单反斜杠进行测试,将它们粘贴到 Java,然后添加额外的反斜杠。

您可能还想试用一下这个工具,它不是实时的,但支持 Java String正则表达式:

http://www.regexplanet.com/advanced/java/index.html

分解我所拥有的:

(.|\n)* - 零个或多个字符或 EOL 序列

Location: - 字符串“位置:”

\s* - 零个或多个空格

(.*) - 一个由任何东西组成的正则表达式组,这就是您将捕获的内容

\n - EOL 序列

您可能需要替换 \n\r\n如果您使用的是 Windows,请尝试 \n先看看。

这将匹配您通过“Main Hall”输入的样本中的所有内容,并将忽略之后的所有内容(<span . . .> 等)“Main Hall”将最终出现在匹配组 1 中。 .

关于Java 正则表达式 - 试图从以特定字符串开头的行中分离出文本?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25540636/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com