- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我目前正在尝试使用 RegEx 在 Java 中解析一些 HTML。在实时代码的较小测试样本上它可以工作,但是当针对实时代码尝试它时,正则表达式引擎会破坏堆栈。
这是我正在使用的代码和正则表达式。
/**
* RegEx Explanation:
* "(?i)" - Turn on case insensitive mode
* "<BR><BR><B>.+?</B><BR>" - Match the format for a group name
* "(?-i)" - Turn off case insensitive mode
* "(.|\\r|\\n)" - Match all the text following the group name incl. newlines
* "(?=((?i)<BR><BR><B>.+?</B><BR>(?-i))" - and lookahead for the start of a new group, make the match lazy and use case-insensitive mode
* "+?)" - Make the lookahead lazy, close out the capture group.
*/
Pattern filterPattern =
Pattern.compile("(?i)(<BR><BR><B>.+?</B><BR>)(?-i)(.|\\r|\\n)+?(?=((?i)<BR><BR><B>.+?</B><BR>(?-i))+?)");
Matcher match = filterPattern.matcher(content);
ArrayList<String> groups = new ArrayList<String>();
// Retrieve the matches found by the RegEx
while(match.find()) {
if(match.groupCount() > -1) {
groups.add(match.group(0));
}
}
实时html是一个板列表( http://menu.2ch.net/bbsmenu.html ),但一般格式是:
<br><br><b>Group name</b><br>
<a href="board url">Name of the board</a><br>
此操作会使用不同数量的链接重复多次。我避免使用像 JSoup 这样的常规 HTML 解析器,只是因为格式一致并且更容易在第一遍提取部分时使用 RegEx 进行定位。
调用 group() 时发生堆栈溢出。其他问题指出,这是由于 Java 中的 group() 调用没有递归深度限制,因此它将运行直到达到堆栈限制。我不太擅长正则表达式,这可能就是为什么我错过了一个可能更简单的表达式。我怀疑递归问题发生在交替(.|\r|\n)处,但由于组太多,它也可能很容易发生。我不知道。
有没有更好的表达方式来避免灾难性的递归?
最佳答案
为了帮助您使用正则表达式,请考虑(这些都没有经过测试,仅凭内存):
(?is)(?:<BR><BR><B>(.+?)</B><BR>)(.*?)(?=<BR><BR><B>.+?</B><BR>)
或
(?i)(?:<BR><BR><B>(.+?)</B><BR>)\s*((?:<A HREF=.*?>.*?</A><BR>\s*)+)
((?i)blah(?-i))
很难阅读,请使用 (?i:blah)
相反,它就是这样设计的,或者只使用一个 (?i)
,因为您无论如何都不希望在正则表达式中出现任何特定的区分大小写的情况DOTALL
模式,你可以写.*?
它会匹配 "hello\n\r\tworld"
也是如此。(.|\\r|\\n)+?
和前瞻:你不需要重复下一个标题,你只是寻找下一个标题的存在group(1)
和group(2)
如果您使用非捕获组,则分别查找标题和链接:(?:I'm not a numbered group)
.(.|\\r|\\n)+?
:<A HREF=(.*?)>(.*?)</A><br>\n
+?
,也许是(?=...)?
使其成为可选匹配,但我不确定它是否有效。使用第二个选项,这更重要!关于Java RegEx 组 StackOverflow,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20933454/
使用 htaccess 我能够隐藏文件扩展名,使其成为/home 而不是/home.html。但是,对于主页,我想完全隐藏文件名,例如 stackoverflow.com,而不是 stackoverf
我试图在关闭子窗体时关闭我的主(父)窗体。然而,这给了我一个 StackOverflow 异常。 但是,如果我在 FormClosed 事件上调用 _child.Dispose,它会按预期工作。我应该
我在 IDEA 中使用 Gradle 并得到以下输出。 * What went wrong: A problem occurred evaluating script. > java.lang.Sta
我是一个 java 新手,并且在 StackOverflow 错误/在类之间访问文件的能力方面遇到了一个非常令人困惑的问题。我知道根本原因可能是我进行了一些递归调用,但修复它的语法却让我无法理解。我认
我需要编写一个程序来生成一些随机数,而不让两个数字落在某个范围内。不幸的是,我需要在学校做这件事,而我在计算机上唯一可以使用的语言是 Java(否则我会用 C++ 来做)。我对 Java 知之甚少,我
尝试设置一个 Person 类 我在尝试将信息封装在类中以使其不会被意外更改时遇到了问题。除了当我尝试使用 setter/getters 进行封装时,该类工作得非常好。我认为问题是这些方法最终会互相循
使用 scala,我已将大约 100000 个节点添加到链表中。当我使用函数 length 时,例如 mylist.length。我收到“java.lang.StackOverflowError”错误
我正在开发一个学校项目,该项目必须有 3 个带 1 个指针的快速排序、3 个带 2 个指针和 2 个堆的快速排序。 到目前为止,我已经编写了快速排序和堆之一。我遇到的问题是快速排序在小情况下工作正常,
我正在制作一个程序,它生成列表的所有子集,然后排列所有这些子集。我有一个生成子集的方法和一个生成排列的方法。但是,它们不能一起工作,即当我排列子集时,我没有得到子集的所有排列,并且出现 StackOv
我有以下函数,它应该产生笛卡尔平面中的所有坐标,我可以在n步中从原点到达: 原点是“位置”,步数是“强度”,它是一个 1-10 的整数。但是,我不断收到 stackoverflow 错误。每次我调用它
当我尝试使用 scala lib(使用 re2)匹配上述正则表达式时,代码进入以下路径并超时 1 分钟: 正则表达式: (([a-z0-9!#$%&'*+?^_`{|}~-]+(?:.[a-z0-9!
我正在开发一个运输 map 项目。我为该位置创建了一个名为 Chart 的对象和一个名为 Pos 的对象。我无法开始工作的是,当我从文本文件读取图表以正确创建对象 Pos 时,因为这就是失败的地方。
public class SortAnimal { public static Comparator getAnimalTagComparator() { return
我因使用以下泛型而收到 StackOverflowError: 积分: package me.expdev.gkitpvp; /* * Project created by ExpDev */ i
已关闭。此问题需要 debugging details 。目前不接受答案。 编辑问题以包含 desired behavior, a specific problem or error, and the
我为一些命题逻辑表达式编写了一个javaCC解析器。表达式可能会很长,有 30k 个字符。 当我解析如此大的表达式时,出现堆栈溢出异常。 是否有一些虚拟机参数决定堆栈大小? 或者在这种情况下你会怎么做
这个问题已经有答案了: What is a StackOverflowError? (15 个回答) 已关闭 8 年前。 最高数字double可以代表极高,我想。尽管下面的代码会抛出异常。这实际上是我
我正在为我的 API 构建一个 SDK,其中有两个模块,分别是 A 类和 B 类。 public class A{ public final B = new B(); public f
执行此递归时,我收到堆栈溢出错误。有一个模式,它第一次说: at MazeGui.move(MazeGui.java:79) which is line if(rigting.goal == true
我编写的这段代码在达到一定的输入大小之前效果很好。如果输入太大,我会收到“java.lang.StackOverflowError”。我已经阅读了 stackoverflow 上有关此主题的其他一些条
我是一名优秀的程序员,十分优秀!