gpt4 book ai didi

java - 清理混合类型的 <script> 标签

转载 作者:行者123 更新时间:2023-11-30 11:59:06 25 4
gpt4 key购买 nike

我正在使用 cyberneko 和 xerces 清理 HTML。然而,一些 $#@@!@@ 网站仍然同时使用这两者

<script>...</script> and <script.../> 

那么会发生什么:给定

<script..../> <div> Some Text </div> <script> scripting stuff </script> , 

neko 将以上所有行解析为脚本,所以我得到了

<script..../> &lt div &gt Some Text &lt/div &gt &lt script &gt scripting stuff </script> , 

然后我丢失了所有内部内容:(

有什么建议吗?

最佳答案

在 html 中使用 <script/> 是非法的。它在 xml 中是合法的。我不知道为什么有些人仍然使用 xml 方式来编写 html,但这是错误的,并且它破坏了大多数解析器(如 SO..) - 设计使然。

另一件需要注意的事情 - 如果您使用 xml 解析器/dom4j 解析器或任何其他依赖于它的东西,请确保您没有通过 xml 解析器然后通过 html 解析器传递您的字符串 - 这会破坏一切。

关于java - 清理混合类型的 &lt;script&gt; 标签,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2713454/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com