gpt4 book ai didi

java - Jsoup.clean 不添加 html 实体

转载 作者:IT老高 更新时间:2023-10-28 20:20:58 25 4
gpt4 key购买 nike

我正在清除不需要的 HTML 标记(例如 <script>)中的一些文本,方法是使用

String clean = Jsoup.clean(someInput, Whitelist.basicWithImages());

问题在于它替换了例如 å&aring; (这给我带来了麻烦,因为它不是“纯 xml”)。

例如

Jsoup.clean("hello å <script></script> world", Whitelist.basicWithImages())

产量

"hello &aring;  world"

但我愿意

"hello å  world"

有没有简单的方法来实现这一点? (即,比在结果中将 &aring; 转换回 å 更简单。)

最佳答案

您可以配置 Jsoup 的转义模式:使用 EscapeMode.xhtml 将为您提供不带实体的输出。

这是一个完整的片段,它接受 str 作为输入,并使用 Whitelist.simpleText() 对其进行清理:

// Parse str into a Document
Document doc = Jsoup.parse(str);

// Clean the document.
doc = new Cleaner(Whitelist.simpleText()).clean(doc);

// Adjust escape mode
doc.outputSettings().escapeMode(EscapeMode.xhtml);

// Get back the string of the body.
str = doc.body().html();

关于java - Jsoup.clean 不添加 html 实体,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8683018/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com