gpt4 book ai didi

java - 从字符串中删除 HTML 标记

转载 作者:bug小助手 更新时间:2023-10-28 01:38:07 32 4
gpt4 key购买 nike

有没有从 Java 字符串中删除 HTML 的好方法?一个简单的正则表达式,如

replaceAll("\\<.*?>", "") 

会起作用,但是像 & 这样的某些内容将无法正确转换,并且两个尖括号之间的非 HTML 将被删除(即 .*?在正则表达式中将消失)。

最佳答案

使用 HTML 解析器而不是正则表达式。使用 Jsoup 非常简单.

public static String html2text(String html) {
return Jsoup.parse(html).text();
}

Jsoup 还有supports根据可自定义的白名单删除 HTML 标记,如果您只想允许,这非常有用,例如<b> , <i><u> .

另见:

关于java - 从字符串中删除 HTML 标记,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/240546/

32 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com