java - 我需要使用正则表达式和 JRegex 删除 Java Script 标签-6ren

java - 我需要使用正则表达式和 JRegex 删除 Java Script 标签

转载作者：太空宇宙更新时间：2023-11-04 08:52:27

我需要从网页的 HTML 代码中删除所有 Java Script 标签以及中间的内容和样式标签。到目前为止，我已经想出了这个表达式:

"(<[ \r\n\t]*script([ \r\n\t>]|>){1,}([ \r\n\t]|.)*?</[ \r\n\t]*script[ \r\n\t]*>)|(<[ \r\n\t]*noscript([ \r\n\t>]|>){1,}([ \r\n\t]|.)*?</[ \r\n\t]*noscript[ \r\n\t]*>)|(<[ \r\n\t]*style([ \r\n\t>]|>){1,}([ \r\n\t]|.)*?</[ \r\n\t]*style[ \r\n\t]*>)"

我使用 JRegex 库来处理正则表达式。当我在任何正则表达式测试器中测试它时，它工作得很好，但是一旦我运行我的程序 - 它就会崩溃并显示以下错误报告:

Exception in thread "Thread-0" java.lang.StackOverflowError
    at java.util.regex.Pattern$BranchConn.match(Unknown Source)
    at java.util.regex.Pattern$BmpCharProperty.match(Unknown Source)
    at java.util.regex.Pattern$Branch.match(Unknown Source)
    at java.util.regex.Pattern$GroupHead.match(Unknown Source)
    at java.util.regex.Pattern$LazyLoop.match(Unknown Source)
    at java.util.regex.Pattern$GroupTail.match(Unknown Source)
    at java.util.regex.Pattern$BranchConn.match(Unknown Source)
    at java.util.regex.Pattern$CharProperty.match(Unknown Source)
    at java.util.regex.Pattern$Branch.match(Unknown Source)
    at java.util.regex.Pattern$GroupHead.match(Unknown Source)
    at java.util.regex.Pattern$LazyLoop.match(Unknown Source)
..................................

而且它会永远持续下去。如果有人能给我这方面的建议 - 我将非常感激。

最佳答案

为什么不使用 HTML 解析器并删除 <script>和<style>节点？

关于java - 我需要使用正则表达式和 JRegex 删除 Java Script 标签，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/3044307/

文章推荐： java - Windows 7 上的 JWS 应用程序是否存在已知问题？

文章推荐： c - 将定义传递给函数

文章推荐： c - 将指针分配给另一个指针的地址

文章推荐： java - Hibernate Search 在主线程中同步执行

java - 为什么我的正则表达式在 shell 脚本中失败，尽管它在 jregex 中工作？
我已经在 shell 脚本中编写了这个用于匹配的简单脚本 file_name="xyz_abc_diagnostics.wifi2.2015-07-30.12-30-52.tar.gz" chk_re
java - 我需要使用正则表达式和 JRegex 删除 Java Script 标签
我需要从网页的 HTML 代码中删除所有 Java Script 标签以及中间的内容和样式标签。到目前为止，我已经想出了这个表达式: "(]|>){1,}([ \r\n\t]|.)*?)|(]|>){

太空宇宙

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

java - 我需要使用正则表达式和 JRegex 删除 Java Script 标签