java - html标签上的Jsoup属性删除-6ren

java - html标签上的Jsoup属性删除

转载作者：塔克拉玛干更新时间：2023-11-03 04:04:00

29

4

我有一个问题，我想过滤某些可能包含 html 的文本。我使用 jsoup 将标签列入白名单并清理标签，效果非常好。

我唯一的问题是一些标签可以包含属性，主要是样式或类，但也可能有不同的属性。 (名称、目标等)清理时这没问题，因为它们会被很好地剥离，但是当将一些允许的标签列入白名单时，由于这些属性而被阻止。基本的白名单似乎没有涵盖样式或类属性，而且我无法确定我还遇到了什么。

因为我想允许相当广泛的标签，但在清理过程中删除了大部分标签，所以我不想为我允许的所有标签添加所有属性。最简单的方法是从所有标签中剥离所有属性，因为我对它们不感兴趣，然后检查带有普通标签的剥离文本是否有效。

是否有删除所有属性的函数或一些简单的循环，另一种选择是告诉白名单忽略所有属性并简单地将标签列入白名单。

最佳答案

最终对我有用的解决方案非常简单。我遍历所有元素，然后遍历所有属性，然后在元素上删除它们，这给我留下了一个干净的版本，我只需要自己验证 html 标签。我认为这不是解决问题的最佳方法，但它可以满足我的要求。

** 编辑 **

我因为旧代码多次被点赞，而它实际上包含一个绝对的初学者错误。遍历同一个列表时永远不能删除。但是，只有在删除了多个属性时才会触发此错误。

更新代码并修复错误:

Document doc = Jsoup.parseBodyFragment(aText);
Elements el = doc.getAllElements();
for (Element e : el) {
    List<String>  attToRemove = new ArrayList<>();
    Attributes at = e.attributes();
    for (Attribute a : at) {
        // transfer it into a list -
        // to be sure ALL data-attributes will be removed!!!
        attToRemove.add(a.getKey());
    }

    for(String att : attToRemove) {
        e.removeAttr(att);
   }
}


return Jsoup.isValid(doc.body().html(), theLegalWhitelist);

关于java - html标签上的Jsoup属性删除，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/18233938/

29

4

0

文章推荐： java - 由于 doOutput 无法写入 URLConnection

文章推荐： algorithm - 我的数组等边算法意外结果

文章推荐： python - 跳过 EMR 的重复项

文章推荐： java - 使用 FileOutputStream 时访问被拒绝

首页

博学

6Ren·AI

商城