gpt4 book ai didi

Java正则表达式匹配除一种特殊情况外的所有html元素

转载 作者:行者123 更新时间:2023-12-02 04:40:54 26 4
gpt4 key购买 nike

我有一个带有一些标记的字符串,如下所示:

The quick brown <a href="www.fox.org">fox</a> jumped over the lazy <a href="entry://id=6000009">dog</a> <img src="dog.png" />.

我试图去掉除了内部带有“entry://id=”的 anchor 元素之外的所有内容。因此,上述示例所需的输出将是:

The quick brown fox jumped over the lazy <a href="entry://id=6000009">dog</a>.

在写这场比赛时,我迄今为止最接近的是:

<.*?>!<a href=\"entry://id=\\d+\">.*?<\\/a>

但我不明白为什么这不起作用。任何帮助(除了“为什么不使用解析器”:)将不胜感激!

最佳答案

我真的不会使用正则表达式来解析 HTML。 HTML 不规则,并且有无数的边缘情况会让您陷入困境。

查看JTidy相反。

关于Java正则表达式匹配除一种特殊情况外的所有html元素,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1305864/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com