gpt4 book ai didi

java - Jsoup 白名单 : Parsing non-english character

转载 作者:可可西里 更新时间:2023-11-01 14:55:41 29 4
gpt4 key购买 nike

我正在尝试清理 HTML 文本并使用 Jsoup 从中提取纯文本. HTML 可能包含非英文字符。

例如 HTML 文本是:

String html = "<p>Á <a href='http://example.com/'><b>example</b></a> link.</p>";

现在如果我使用 Jsoup#parse(String html) :

String text = Jsoup.parse(html).text();

正在打印:

Á example link.

如果我使用 Jsoup#clean(String bodyHtml, Whitelist whitelist) 清理文本:

String text = Jsoup.clean(html, Whitelist.none());

正在打印:

&Aacute; example link.

我的问题是,我怎样才能得到文本

Á example link.

使用Whitelistclean() 方法?我想使用 Whitelist 因为我可能需要使用 Whitelist#addTags(String... tags) .

任何信息都会对我很有帮助。

谢谢。

最佳答案

在当前版本(1.6.1)中不可能,jsoup print Á as Á 因为实体转义特性,没有“不转义”模式现在(检查 Entities.EscapeMode)。

您可以 1. 取消转义这些 HTML 实体,2. 通过添加带有空映射的新转义模式来扩展 jsoup 的源代码。

关于java - Jsoup 白名单 : Parsing non-english character,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9543932/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com