gpt4 book ai didi

Java 替换字符串中的所有非 HTML 标签

转载 作者:搜寻专家 更新时间:2023-11-01 01:47:40 24 4
gpt4 key购买 nike

如果那些不是有效的 HTML 标签,我想替换字符串中所有看起来像标签的部分。看起来像标签的部分是包含在 <> 中的东西括号。例如。 <myemail@email.com><hello>但是<br> , <div> , 等等必须保留。

你知道如何实现吗?

感谢任何帮助!

干杯,

胡说八道

最佳答案

您可以使用 JSoup清理 HTML。

String cleaned = Jsoup.clean(html, Whitelist.relaxed());

您可以使用定义的 Whitelists 之一或者你可以创建你自己的自定义一个,你可以在其中指定你希望允许哪些 HTML 元素通过清理器。其他所有内容都被删除。


您的具体示例是:

String html = "one two three <blabla> four <text> five <div class=\"bold\">six</div>";
String cleaned = Jsoup.clean(html, Whitelist.relaxed().addAttributes("div", "class"));
System.out.println(cleaned);

输出:

one two three  four  five 
<div class="bold">
six
</div>

关于Java 替换字符串中的所有非 HTML 标签,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4691539/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com