gpt4 book ai didi

java - 清理 Spring Web 应用程序中不需要的 HTML 中的用户输入

转载 作者:太空宇宙 更新时间:2023-11-04 08:50:42 24 4
gpt4 key购买 nike

我需要整理 Web 应用程序中的用户输入,以便删除某些 HTML 标签并将 < 编码为 > 等。

我已经制作了几个简单的 util 方法来剥离 HTML,但我发现自己在应用程序中的任何地方都添加了这些方法。

是否有更智能的方法来整理用户输入?例如。在绑定(bind)过程中,或者以某种方式作为过滤器?

我见过 JTidy 可以充当 servlet 过滤器,但我不确定这是否是我想要的,因为我需要清理用户输入,而不是 JSP 的输出。

来自 JTidy 的主页:

It can be used as a tool for cleaning up malformed and faulty HTML generated by your dynamic web application.

It can Validate HTML without changing the output and generate warnings for each page so you could identify JSP or Servlet that need to be fixed.

It can save you hours of time. The more HTML you write in JSP or Servlets, the more time you will save. Don't waste time manually looking for problems, figuring out why your HTML doesn't display like it should.

In addition to JTidy validation you could submit dynamically generated pages to online HTML validators for example W3C Markup Validation Service, WAVE Accessibility Tool or WDG HTML Validator even if you are behind the firewall.

最佳答案

I find myself adding these EVERYWHERE in my application.

真的吗? 许多用户输入接受 HTML 是不寻常的。大多数输入应该是纯文本,这样当用户输入 < 时他们实际上得到一个小于号,而不是一个(可能整理/过滤掉)标签。这需要在输出阶段进行 HTML 编码。通常,您可以从 <c:out> 获得该信息。标签。

(遗憾的是,JSTL 之前的老式 JSP 没有提供 HTML 编码器,因此,如果由于某种原因您正在使用这种编码器,则必须提供由字符串替换构建的自己的 HTML 编码方法,或者使用包含该编码器的众多第三方工具之一。)

对于通常很少有的“富文本”字段,有意接受用户提供的 HTML,您应该对它们进行严格过滤,以防止来自标记的 JavaScript 注入(inject)。这是一项艰巨的工作! “几个剥离 HTML 的简单 util 方法”不太可能正确且安全地完成此操作。

正确的方法是将输入的 HTML 解析为 DOM;遍历它,检查是否仅使用已知安全的元素和属性名称;然后将其序列化回格式正确的 [X]HTML。有很多工具可以做到这一点,是的,jTidy 就是其中之一。您可以使用方法 Tidy.parseDOM在输入字段值上,使用 removeChild 从生成的 DOM 中删除不需要的项目和removeAttribute ,然后使用 pprint 重新序列化.

基于 HTML 的富文本的一个很好的替代方案是为用户提供一种更简单的文本标记形式,然后您可以将其转换为已知安全的 HTML 标记。就像我现在正在输入的这个文本框一样。

关于java - 清理 Spring Web 应用程序中不需要的 HTML 中的用户输入,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3403816/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com