gpt4 book ai didi

java - Java 中的 HTML 处理 : Convert HTML to other formats

转载 作者:行者123 更新时间:2023-12-03 02:26:03 24 4
gpt4 key购买 nike

好的,Java 有很多 HTML/XML 解析器。我想做的不仅仅是知道如何解析它。我想过滤内容并使其采用合适的形式。

更准确地说,我只想保留文本和图像。但是,我也想保留一些文本格式,例如:斜体、粗体、对齐方式等。

所有这一切都是因为我试图实现一个转换器,将 html 转换为我为自己的目的而创建的特定格式。

有什么想法吗?当然,以前肯定已经做过很多次了。

最佳答案

如果您的目的是根据安全白名单清理用户提交的内容以防止 XSS,那么我建议使用 Jsoup为了这。 It provides a builtin white-list 。那么就很简单:

String safeHtml = Jsoup.clean(unsafeHtml, Whitelist.basicWithImages());

您可以按照 javadoc 中所述自定义白名单 .

另请参阅:

关于java - Java 中的 HTML 处理 : Convert HTML to other formats,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3845524/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com