gpt4 book ai didi

java - 无法弄清楚正则表达式问题

转载 作者:行者123 更新时间:2023-11-29 03:36:44 24 4
gpt4 key购买 nike

我正在尝试提取标题元素中的文本并忽略其他所有内容。

我看过这些文章,但它们似乎没有帮助:\
Regular expression to extract text between square brackets
String Pattern Matching In Java
Java Regex to get the text from HTML anchor (<a>...</a>) tags

主要问题是我无法理解响应者在尝试破解我自己的代码时所说的内容。

以下是我通过阅读 Pattern article 中的 Java API 得到的结果。 .

<title>(.*?)</title>

这是我返回标题的代码。

String title = null;
Matcher match = Pattern.compile("[<title>](.*?)[</title>]").matcher(this.webPage);
try{
title = match.group();
}
catch(IllegalStateException e)
{
e.printStackTrace();
}

我收到 IllegalStateException,它是这样说的:

java.lang.IllegalStateException: No match found
at java.util.regex.Matcher.group(Matcher.java:485)
at java.util.regex.Matcher.group(Matcher.java:445)
at BrowserModal.getWebPageTitle(BrowserModal.java:21)
at BrowserTest.main(BrowserTest.java:7)

第 21 行将是“title = match.group();”

最佳答案

What are the pros and cons of the leading Java HTML parsers?列出一堆 HTML 解析器。将 HTML 解析为 DOM,然后使用 getElementsByClassName("title")获取标题元素,并通过查看应该是文本节点的子元素来获取文本内容。


title = match.group();

这是失败的,因为 group()返回整个匹配的文本。 group(1)将只返回第一个括号组的内容。


[<title>](.*?)[</title>]

方括号只是打破它。 [<title>]将匹配任何单个字符,即尖括号或单词“title”中的字母。

<title>(.*?)</title>

更好,但只会匹配一行中的标题(因为 . 默认情况下不匹配换行符,也不会匹配像

这样的细微变化
<title lang=en>Foo</title>

它也将无法在 HTML 中正确找到标题

<html>
<head>
<!-- <title>Old commented out title</title> -->
<title>Spiffy new title</title>

关于java - 无法弄清楚正则表达式问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15128009/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com