python - Libxml Cleaner 将不需要的 <p> 标记添加到 HTML 片段-6ren

python - Libxml Cleaner 将不需要的
标记添加到 HTML 片段

转载作者：太空狗更新时间：2023-10-30 01:24:05

24

4

我正在尝试使用 libxml 的 HTML 清理器清理用户输入以防止 XSS 注入(inject)。当我输入这样的字符串时:

Normal text <b>Bold text</b>

我得到这个:

<p>Normal text <b>Bold text</b></p>

我想去掉 <p>围绕我所有输入的标签。

这是当前执行清理的函数:

from lxml.html import clean

cleaner = clean.Cleaner(
    scripts = True,
    javascript = True,
    allow_tags = None,
)

def sanitize_html(html):
    return cleaner.clean_html(html)

顺便说一句，上面的代码只有一行:allow_tags = None我试图删除所有 HTML 标签的地方。 libxml 是否具有我仅允许某些标签的白名单功能？

最佳答案

所有TEXT 片段/节点必须包含在某种元素中。 libxml 将尝试尽可能地解决这个问题。

def sanitize_html(html):
    cleaned_html = cleaner.clean_html(html)
    return re.sub(r'</p>$', '', re.sub(r'^<p>', '', cleaned_html))

缓存已编译的正则表达式或寻找更有效的方法来执行此操作留给查看者作为练习。在不重新审查 libxml2 的情况下，我认为您可以摆脱困境:

return cleaned_html[3:-4]     # Single slice operation
return cleaned_html[3:][:-4]

关于python - Libxml Cleaner 将不需要的 <p> 标记添加到 HTML 片段，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/6448802/

24

4

0

文章推荐： python - Tornado 'Hello World' 错误

文章推荐： c# - 检查列表中项目的有效组合

文章推荐： c# - MultipleActiveResultSets 启用但不工作

文章推荐： python - 有什么方法可以恢复 HG 或 GIT 变更集的下载？

自动完成中未使用 Xcode 片段
我已将重要信息加粗以使其更易于阅读。我昨天刚刚更新到Xcode 7.3并且一整天都在尝试解决我的问题。对于类(class)，我们用 C 编程并使用 SVN 修改我们所有的文件以创建我们的项目。我使
URL 片段 (#) 允许的字符
在互联网上进行了一些挖掘之后，我无法找到一个很好的答案来说明我可以将哪些字符用于 URL 片段。我正在编写一个 javascript 脚本，它将利用 URL 片段。我想让 URL 看起来不那么复杂，
每个关键帧中带有标题的 MP4 片段
我正在尝试在分段文件(styp)的 mp4 容器中定位 h264 帧。对于分割，我目前使用 MP4Box dash。我使用 MP4Box 解析器，我注意到在每个关键帧(IDR)中样本的大小与原始文件中
jquery - 片段 - 淡入然后淡出
我想要一个自定义片段动画，以便它们淡入右/淡入左，然后在短暂延迟后淡出。假定所有片段都具有类 .visible 和 .current-fragment。我以为我可以在短暂的延迟后删除类 .visibl
C# Autolevel 片段？
有没有人看到过在 C# 中自动调平图像的任何好的片段？最佳答案参见 http://code.google.com/p/aforge/ 关于C# Autolevel 片段？，我们在Stack O
controls - 如何从控件获取父 View /片段
如何检索 View 所属的 Fragment/sap.ui.core.Control？ BR 克里斯最佳答案如果您的控件的标识符包含 View 的标识符(如果您使用的是 XML View ，则类似
lua - 试图理解这个 lua 片段
我试图了解这个函数的作用。任何人都可以向我解释这一点吗？ function newInstance (class) local o = {} setmetatable (o, clas
dependencies - 用于安装依赖项最新版本的 Nuspec 片段
简介根据 this documentation可以指定依赖项，包括每个包的版本，如下所示: 问题需要应用哪个 Nuspec 片段才能安装依赖项的最新版本？最佳答案不幸的是，您无法
graphql - 如何在多种类型上使用 GraphQL 片段
我有一个 Gatsby 项目，它对两种不同类型的内容进行了非常相似的 GraphQL 查询:常规页面和 wiki 文章。按蛞蝓页 export const query = graphql` q
jsp - 检查是否设置了 JSP 片段
我遇到了以下教程 JSP tricks to make templating easier?用于使用 JSP 创建页面模板(我怎么这么久都没有想到这个？!？)。但是，在进行了一些搜索之后，我似乎无法弄
模型的 Django HTML 片段
我是 Django 的新手，我试图找出如何将 HTML 片段与模型相关联。我的 HTML 片段只是一个 div。我想重用那个 div(你可以把它想象成一个缩略图) 情况是这样的:在我的主页中，我想显
Vim 片段，没有片段/模板插件
我经常使用 vim，但我的工作流程通常迫使我与其他 IDE 交互，所以我不是一个像上帝一样的 vim super 用户，我也不想很快成为。 Vim 不是我的 IDE，我也不希望它是。这是一款快速轻便的
如果前面的脚本失败，则执行或不执行 JavaScript 片段
我刚刚了解到一个关于在抛出错误时执行 Javascript 的重要事实。在我开始对此下结论之前，我最好验证一下我是否正确。给定一个包含 2 个脚本的 HTML 页面: 脚本1: doSometh
google-chrome - 片段-标识符已被声明
我是在Chrome片段中编写的: let myVar = someValue; 当我尝试第二次运行它时，它说该变量已被声明并在第一行引发错误。错误是: Uncaught SyntaxError: I
opengl - 同一程序中可以有多个像素(片段)着色器吗？
我想要两个像素着色器；首先要做一件事，然后再做其他事情。这是可能的，还是我必须将所有内容打包到一个着色器中？最佳答案您可以这样做，例如通过从主入口点对在各种着色器对象中实现的函数进行函数调用。 m
syntax-error - 有条件的情况下如何正确使用加法？片段
我正在尝试检查汽车前面是否有任何障碍物。假设汽车在位置“2”。我的目标是检查位置“3”处是否有障碍物。可能没有明确的障碍事实，这意味着在特定位置没有障碍。我检查使用是否存在有条件。但是在规则 r6
javascript - 在文本区域内添加 Javascript 片段
我想在文本区域内编写一个 JavaScript，而不运行 JavaScript。显示为一些可复制的文本。我使用 jquery 同时插入文本区域和代码片段: $("#copy-snippet-cont
regex - 解释一下这个 .htaccess 片段
有人可以解释以下 htacess 行，我理解部分内容，但想要更深入的知识。作为注释，我假设它按预期工作，这目前还没有上线，我只是在阅读一些工作簿，这是打印的。 // Don't understand
f# - 方便的 F# 片段
就目前情况而言，这个问题不太适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持，但这个问题可能会引发辩论、争论、民意调查或扩展讨论。如果您觉得这个问题可以改进并可能重新开放，visit
javascript - 如何在更改选择列表值时附加和删除 html 片段
我目前正在尝试使用 Jquery 根据下拉列表的值附加音频标签 html 列表。主要问题是，当选择值更改时，empty() 和append() 方法根本不会将html 注入(inject)到播放列表d

首页

博学

6Ren·AI

商城

python - Libxml Cleaner 将不需要的
标记添加到 HTML 片段

首页

博学

6Ren·AI

商城

python - Libxml Cleaner 将不需要的 标记添加到 HTML 片段

python - Libxml Cleaner 将不需要的
标记添加到 HTML 片段