c# - 如何过滤除特定白名单之外的所有 HTML 标签？-6ren

c# - 如何过滤除特定白名单之外的所有 HTML 标签？

转载作者：IT王子更新时间：2023-10-29 04:03:43

26

4

这是针对 .NET 的。 IgnoreCase 已设置且 MultiLine 未设置。

通常我在正则表达式方面表现不错，也许我咖啡因不足...

允许用户输入 HTML 编码的实体(

u, i, b, h3, h4, br, a, img

自闭
和是允许的，有或没有额外的空间，但不是必需的。

我想:

除去上面列出的那些之外的所有开始和结束 HTML 标记。
从剩余的标签中删除属性，除了 anchor 可以有一个 href。

到目前为止我的搜索模式(替换为空字符串):

<(?!i|b|h3|h4|a|img|/i|/b|/h3|/h4|/a|/img)[^>]+>

这似乎除了我想要的开始和结束标签之外的所有标签，但是存在三个问题:

必须包含每个允许标签的结束标签版本是丑陋的。
属性得以保留。这可以在一次更换中发生吗？
标签以开头的允许的标签名称会溜走。例如，“ ”和“<iframe>”。

以下建议的模式不会去除没有属性的标签。

</?(?!i|b|h3|h4|a|img)\b[^>]*>

如下所述，“>”在属性值中是合法的，但可以肯定地说我不会支持它。此外，也不会有 CDATA block 等问题需要担心。只是一点点 HTML。

Loophole 的回答是迄今为止最好的回答，谢谢!这是他的模式(希望 PRE 更适合我):

static string SanitizeHtml(string html)
{
    string acceptable = "script|link|title";
    string stringPattern = @"</?(?(?=" + acceptable + @")notag|[a-zA-Z0-9]+)(?:\s[a-zA-Z0-9\-]+=?(?:([""']?).*?\1?)?)*\s*/?>";
    return Regex.Replace(html, stringPattern, "sausage");
}

我认为仍然可以对这个答案进行一些小的调整:

我认为可以通过将“!--”添加到“acceptable”变量并对表达式的末尾进行小的更改来修改它以捕获简单的 HTML 注释(那些本身不包含标签的注释)以允许一个可选的尾随“\s--”。
我认为如果属性之间有多个空白字符(例如:属性之间有换行符和制表符的重格式 HTML)，我认为这会中断。

编辑 2009-07-23:这是我采用的最终解决方案(在 VB.NET 中):

 Dim AcceptableTags As String = "i|b|u|sup|sub|ol|ul|li|br|h2|h3|h4|h5|span|div|p|a|img|blockquote"
 Dim WhiteListPattern As String = "</?(?(?=" & AcceptableTags & _
      ")notag|[a-zA-Z0-9]+)(?:\s[a-zA-Z0-9\-]+=?(?:([""']?).*?\1?)?)*\s*/?>"
 html = Regex.Replace(html, WhiteListPattern, "", RegExOptions.Compiled)

需要注意的是，A 标签的 HREF 属性仍然会被清除，这并不理想。

最佳答案

这是我为此任务编写的函数:

static string SanitizeHtml(string html)
{
    string acceptable = "script|link|title";
    string stringPattern = @"</?(?(?=" + acceptable + @")notag|[a-zA-Z0-9]+)(?:\s[a-zA-Z0-9\-]+=?(?:(["",']?).*?\1?)?)*\s*/?>";
    return Regex.Replace(html, stringPattern, "sausage");
}

编辑:出于某种原因，我将对我之前答案的更正作为单独的答案发布，因此我将它们合并在这里。

我会稍微解释一下正则表达式，因为它有点长。

第一部分匹配一个左括号和 0 或 1 个斜杠(如果它是一个结束标记)。

接下来您会看到一个具有前瞻性的 if-then 结构。 (?(?=SomeTag)then|else) 我正在检查字符串的下一部分是否是可接受的标签之一。您可以看到我将正则表达式字符串与可接受的变量连接起来，这是可接受的标签名称，由竖条分隔，以便任何术语都匹配。如果匹配，你可以看到我输入了“notag”这个词，因为没有标签会匹配它，如果可以接受，我不想管它。否则，我将转到 else 部分，在那里我匹配任何标签名称 [a-z,A-Z,0-9]+

接下来，我想匹配 0 个或多个属性，我假设它们的形式为 attribute="value"。所以现在我将代表一个属性的这部分分组，但我使用 ?: 来防止该组被速度捕获: (?:\s[a-z,A-Z,0-9,-]+=?(?:(["",']?).?\1?))

这里我从标记和属性名称之间的空白字符开始，然后匹配属性名称:[a-z,A-Z,0-9,-]+

接下来我匹配一个等号，然后是引号。我将报价分组，以便将其捕获，我可以稍后进行反向引用\1 以匹配相同类型的报价。在这两个引号之间，您可以看到我使用句点来匹配任何内容，但是我使用的是惰性版本 *?而不是贪婪的版本 * 这样它只会匹配下一个结束这个值的引号。

接下来我们在用括号结束组之后放置一个*，以便它匹配多个属性/值组合(或不匹配)。最后，我们将一些空格与\s 以及 0 或 1 个结束斜杠匹配到 xml 样式的自闭合标签中。

你可以看到我正在用香肠替换标签，因为我饿了，但你也可以用空字符串替换它们以清除它们。

关于c# - 如何过滤除特定白名单之外的所有 HTML 标签？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/307013/

26

4

0

文章推荐： c# - WebRequest 是与网站交互的正确 C# 工具吗？

文章推荐： javascript - 使用时间流逝的 d3 中的颜色过渡

文章推荐： javascript - ExtJS - 如何获取组件项值

文章推荐： javascript - 在javascript中对天数进行排序

perl - 不能持续到循环 block 之外
我正在努力解决一个问题 Rahul 正在玩一个非常有趣的游戏。他有 N 个圆盘(每个圆盘的半径相等)。每个磁盘都有一个不同的数字，从 1 到 N 与之相关联。磁盘一个接一个地放在一堆中。 Rahul
java - 此请求的时间戳在 recvWindow 之外
我正在尝试使用此代码发出请求: public JsonObject account() throws BinanceApiException { return (new Request
emacs - 如何将所选区域粘贴到 emacs 之外？
我使用的是 Mac OS 和 emacs -nw (终端模式)。我不知道如何在 emacs 之外粘贴东西(已由 M-w 在 emacs -nw 中实现)。我知道emacs -ns可以做到。搜索互
html - 导航栏菜单内容溢出到父 div 之外
我试图让导航栏菜单出现在“标题容器”菜单中，但由于某种原因，导航栏链接流到外面(在修改浏览器窗口之前)。我不明白为什么，但我怀疑它与这一行有关: div class="collapse navbar-
hibernate - 如何将环境细节移到 EAR 之外
我们的项目是在 WAS 6.1/hibernate/struts 上使用 RAD 7.0 开发的中型 Web 应用程序，该应用程序已投入生产。目前我们在属性文件中硬编码了生产系统的 IP 地址，在 h
javascript - 将传单控件放置在 map 之外
我的要求是在传单中创建 N 类型的标记。该列表很大，无法容纳在 map 区域中。我想要类似的东西: http://blog.georepublic.info/2012/leaflet-example
spring - 将某些异常排除在报告给 Sentry 之外
如 docs 中所述，基于 spring-boot 的 Web 服务正在使用 Sentry .它工作正常，但不应将某些异常发送到 Sentry ，例如为了在某些请求上返回 HTTP 状态 410
ios:图层显示在其托管 View 之外
我已经阅读了 Apple Core Animation 文档。它说核心动画没有提供在窗口中实际显示图层的方法，它们必须由 View 托管。当与 View 配对时， View 必须为底层图层提供事件处理
javascript - 哪个事件来检查元素是否在滚动时位于视口(viewport)之外？
我试图在滚动时检查元素是否在我的视口(viewport)内。如果它在我的视口(viewport)之外，我会添加一个类来将元素固定到顶部。我用来确定元素是否在视口(viewport)之外的函数是: i
jQuery:如果用户点击 div 之外
我正在查询中创建一个弹出窗口。悬停时弹出窗口一切正常。当用户的鼠标离开 div 以关闭它时，我让它看到计时器启动。如果他在计时器完成之前再次进入 div，则计时器将被清除。这很好，但是如果用户点击
python - 如何防止玩家移动到给定区域 map 之外？
我使用名为 zonemap 的字典创建了一个 4x6 区域 map 。我在该字典中嵌套了多个字典；每个区域代表玩家可以访问并与之互动的区域。我希望能够将玩家的移动限制在该 4x6 区域，并重新显示他们
jQuery - 如何检测项目当前是否在视口(viewport)之外？
我正在构建一个页面，该页面将使用 ajax 来更新主要内容区域。用户将单击左侧菜单栏中的项目来更新右侧的 div 并包含搜索结果。我想检测用户是否向下滚动到目前为止导致右侧结果 div 移出视口(v
jQuery 拖放不允许我拖动到可滚动 div 之外？
好的，我在 div 中有一个带有拖放类的表格，其溢出设置为“自动”，这允许我隐藏部分时间表，只在底部放置一个滚动条。但是，我只是在可滚动 div 之外创建了一些可放置元素，并且我的可拖动元素无法离开可
c# - 如何可靠地检测项目何时滚动到 View 之外？
我有大量项目绑定(bind)到 ListBox，VirtualizingStackPanel 设置为它的 ItemsPanel。随着用户滚动和项目容器的创建，我做了一些工作来用数据填充项目(使用数据库
c# - 将类成员的范围限制在私有(private)之外
我想知道是否有一种方法可以将类成员的访问范围专门限定为在 C# 中获取/设置实现，以减少我意外直接访问它们的可能性。类似 private 的东西，但只允许 get/set 访问它，我想我可以将每个变量
swift - 如何使模态视图出现在 Controller 之外？
我正在尝试编写一个小游戏，以应用我自己在本类(class)中学到的概念。当游戏打开时，我想要一个自定义模态视图来告诉用户如何玩。同样，当他们输了时，我想呈现一个结果页面，该页面将位于 if 语句内。我
javascript - 我怎样才能让这个下拉列表总是显示在父 div 之外？
我有一个非常具体的 HTML/CSS 和/或 JS 问题。我在 this fiddle here 创建了一个示例显示问题。我有一个可滚动的 div，它是一个表的父级: ...我的表格行之一包
java - 将二进制文件复制到 jar 之外
我的 jar 文件中打包了一个 exe，我试图将它复制到一个临时位置，以便我可以使用 Desktop.browse() 运行它，为此我设置了一个使用 class.getResourceAsStream
javascript - 无法让我的变量将其值保留在 getJSON 之外
您好，我对这段代码有疑问。我的问题是第一个 console.log(smile_per_sec) 给了我需要的值，但是第二个给了我声明变量时给它的值。 $.getJSON( twitter
javascript - 传单标记弹出窗口延伸到 map 之外
我必须更改标记弹出窗口的默认大小以容纳我想放入其中的数据。我更改了一些 map 设置，因此当用户将其拖出 View 时，它总是会弹回最大范围。我遇到的问题是，对于靠近边缘的标记，当它的弹出窗口打开时，

首页

博学

6Ren·AI

商城

c# - 如何过滤除特定白名单之外的所有 HTML 标签？