gpt4 book ai didi

java - 优化匹配两个html标签的正则表达式

转载 作者:行者123 更新时间:2023-12-02 08:30:45 26 4
gpt4 key购买 nike

((<(\\s*?)(object|OBJECT|EMBED|embed))+(.*?)+((object|OBJECT|EMBED|embed)(\\s*?)>))

我需要从本地存储在磁盘上的一些 html 文件中获取对象和嵌入标签。我想出了上面的正则表达式来匹配java中的标签 使用 matcher.group(1);获取整个标签及其内容

有人可以改进这个吗?您觉得有什么地方是我应该立即改变的吗?

顺便说一句,它确实有效,只是想要一个输入来看看它是否可以更好,因为我自己对正则表达式相当陌生。

最佳答案

是的,这是改进:

  1. 下载一个完整的 Java HTML 解析器,例如 Jsoup并将其放入类路径中。

  2. 现在您可以选择全部 <object><embed>要素如下:

    Document document = Jsoup.parse(new File("/path/to/file.html"), "UTF-8");
    Elements elements = document.select("object,embed");
    for (Element element : elements) {
    System.out.println(element.outerHtml());
    }

另请参阅:

关于java - 优化匹配两个html标签的正则表达式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3429076/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com