- r - 以节省内存的方式增长 data.frame
- ruby-on-rails - ruby/ruby on rails 内存泄漏检测
- android - 无法解析导入android.support.v7.app
- UNIX 域套接字与共享内存(映射文件)
这是针对 .NET 的。 IgnoreCase 已设置且 MultiLine 未设置。
通常我在正则表达式方面表现不错,也许我咖啡因不足...
允许用户输入 HTML 编码的实体(
u, i, b, h3, h4, br, a, img
自闭
和是允许的,有或没有额外的空间,但不是必需的。
我想:
到目前为止我的搜索模式(替换为空字符串):
<(?!i|b|h3|h4|a|img|/i|/b|/h3|/h4|/a|/img)[^>]+>
这似乎除了我想要的开始和结束标签之外的所有标签,但是存在三个问题:
以下建议的模式不会去除没有属性的标签。
</?(?!i|b|h3|h4|a|img)\b[^>]*>
如下所述,“>”在属性值中是合法的,但可以肯定地说我不会支持它。此外,也不会有 CDATA block 等问题需要担心。只是一点点 HTML。
Loophole 的回答是迄今为止最好的回答,谢谢!这是他的模式(希望 PRE 更适合我):
static string SanitizeHtml(string html)
{
string acceptable = "script|link|title";
string stringPattern = @"</?(?(?=" + acceptable + @")notag|[a-zA-Z0-9]+)(?:\s[a-zA-Z0-9\-]+=?(?:([""']?).*?\1?)?)*\s*/?>";
return Regex.Replace(html, stringPattern, "sausage");
}
我认为仍然可以对这个答案进行一些小的调整:
我认为可以通过将“!--”添加到“acceptable”变量并对表达式的末尾进行小的更改来修改它以捕获简单的 HTML 注释(那些本身不包含标签的注释)以允许一个可选的尾随“\s--”。
我认为如果属性之间有多个空白字符(例如:属性之间有换行符和制表符的重格式 HTML),我认为这会中断。
编辑 2009-07-23:这是我采用的最终解决方案(在 VB.NET 中):
Dim AcceptableTags As String = "i|b|u|sup|sub|ol|ul|li|br|h2|h3|h4|h5|span|div|p|a|img|blockquote"
Dim WhiteListPattern As String = "</?(?(?=" & AcceptableTags & _
")notag|[a-zA-Z0-9]+)(?:\s[a-zA-Z0-9\-]+=?(?:([""']?).*?\1?)?)*\s*/?>"
html = Regex.Replace(html, WhiteListPattern, "", RegExOptions.Compiled)
需要注意的是,A 标签的 HREF 属性仍然会被清除,这并不理想。
最佳答案
这是我为此任务编写的函数:
static string SanitizeHtml(string html)
{
string acceptable = "script|link|title";
string stringPattern = @"</?(?(?=" + acceptable + @")notag|[a-zA-Z0-9]+)(?:\s[a-zA-Z0-9\-]+=?(?:(["",']?).*?\1?)?)*\s*/?>";
return Regex.Replace(html, stringPattern, "sausage");
}
编辑:出于某种原因,我将对我之前答案的更正作为单独的答案发布,因此我将它们合并在这里。
我会稍微解释一下正则表达式,因为它有点长。
第一部分匹配一个左括号和 0 或 1 个斜杠(如果它是一个结束标记)。
接下来您会看到一个具有前瞻性的 if-then 结构。 (?(?=SomeTag)then|else) 我正在检查字符串的下一部分是否是可接受的标签之一。您可以看到我将正则表达式字符串与可接受的变量连接起来,这是可接受的标签名称,由竖条分隔,以便任何术语都匹配。如果匹配,你可以看到我输入了“notag”这个词,因为没有标签会匹配它,如果可以接受,我不想管它。否则,我将转到 else 部分,在那里我匹配任何标签名称 [a-z,A-Z,0-9]+
接下来,我想匹配 0 个或多个属性,我假设它们的形式为 attribute="value"。所以现在我将代表一个属性的这部分分组,但我使用 ?: 来防止该组被速度捕获: (?:\s[a-z,A-Z,0-9,-]+=?(?:(["",']?).?\1?))
这里我从标记和属性名称之间的空白字符开始,然后匹配属性名称:[a-z,A-Z,0-9,-]+
接下来我匹配一个等号,然后是引号。我将报价分组,以便将其捕获,我可以稍后进行反向引用\1 以匹配相同类型的报价。在这两个引号之间,您可以看到我使用句点来匹配任何内容,但是我使用的是惰性版本 *?而不是贪婪的版本 * 这样它只会匹配下一个结束这个值的引号。
接下来我们在用括号结束组之后放置一个*,以便它匹配多个属性/值组合(或不匹配)。最后,我们将一些空格与\s 以及 0 或 1 个结束斜杠匹配到 xml 样式的自闭合标签中。
你可以看到我正在用香肠替换标签,因为我饿了,但你也可以用空字符串替换它们以清除它们。
关于c# - 如何过滤除特定白名单之外的所有 HTML 标签?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/307013/
我正在努力解决一个问题 Rahul 正在玩一个非常有趣的游戏。他有 N 个圆盘(每个圆盘的半径相等)。每个磁盘都有一个不同的数字,从 1 到 N 与之相关联。磁盘一个接一个地放在一堆中。 Rahul
我正在尝试使用此代码发出请求: public JsonObject account() throws BinanceApiException { return (new Request
我使用的是 Mac OS 和 emacs -nw (终端模式)。 我不知道如何在 emacs 之外粘贴东西(已由 M-w 在 emacs -nw 中实现)。 我知道emacs -ns可以做到。 搜索互
我试图让导航栏菜单出现在“标题容器”菜单中,但由于某种原因,导航栏链接流到外面(在修改浏览器窗口之前)。我不明白为什么,但我怀疑它与这一行有关: div class="collapse navbar-
我们的项目是在 WAS 6.1/hibernate/struts 上使用 RAD 7.0 开发的中型 Web 应用程序,该应用程序已投入生产。目前我们在属性文件中硬编码了生产系统的 IP 地址,在 h
我的要求是在传单中创建 N 类型的标记。该列表很大,无法容纳在 map 区域中。 我想要类似的东西: http://blog.georepublic.info/2012/leaflet-example
如 docs 中所述,基于 spring-boot 的 Web 服务正在使用 Sentry .它工作正常,但不应将某些异常发送到 Sentry ,例如为了在某些请求上返回 HTTP 状态 410
我已经阅读了 Apple Core Animation 文档。它说核心动画没有提供在窗口中实际显示图层的方法,它们必须由 View 托管。当与 View 配对时, View 必须为底层图层提供事件处理
我试图在滚动时检查元素是否在我的视口(viewport)内。如果它在我的视口(viewport)之外,我会添加一个类来将元素固定到顶部。 我用来确定元素是否在视口(viewport)之外的函数是: i
我正在查询中创建一个弹出窗口。悬停时弹出窗口一切正常。当用户的鼠标离开 div 以关闭它时,我让它看到计时器启动。如果他在计时器完成之前再次进入 div,则计时器将被清除。 这很好,但是如果用户点击
我使用名为 zonemap 的字典创建了一个 4x6 区域 map 。我在该字典中嵌套了多个字典;每个区域代表玩家可以访问并与之互动的区域。我希望能够将玩家的移动限制在该 4x6 区域,并重新显示他们
我正在构建一个页面,该页面将使用 ajax 来更新主要内容区域。用户将单击左侧菜单栏中的项目来更新右侧的 div 并包含搜索结果。 我想检测用户是否向下滚动到目前为止导致右侧结果 div 移出视口(v
好的,我在 div 中有一个带有拖放类的表格,其溢出设置为“自动”,这允许我隐藏部分时间表,只在底部放置一个滚动条。但是,我只是在可滚动 div 之外创建了一些可放置元素,并且我的可拖动元素无法离开可
我有大量项目绑定(bind)到 ListBox,VirtualizingStackPanel 设置为它的 ItemsPanel。随着用户滚动和项目容器的创建,我做了一些工作来用数据填充项目(使用数据库
我想知道是否有一种方法可以将类成员的访问范围专门限定为在 C# 中获取/设置实现,以减少我意外直接访问它们的可能性。类似 private 的东西,但只允许 get/set 访问它,我想我可以将每个变量
我正在尝试编写一个小游戏,以应用我自己在本类(class)中学到的概念。当游戏打开时,我想要一个自定义模态视图来告诉用户如何玩。同样,当他们输了时,我想呈现一个结果页面,该页面将位于 if 语句内。我
我有一个非常具体的 HTML/CSS 和/或 JS 问题。我在 this fiddle here 创建了一个示例显示问题。 我有一个可滚动的 div,它是一个表的父级: ...我的表格行之一包
我的 jar 文件中打包了一个 exe,我试图将它复制到一个临时位置,以便我可以使用 Desktop.browse() 运行它,为此我设置了一个使用 class.getResourceAsStream
您好,我对这段代码有疑问。我的问题是第一个 console.log(smile_per_sec) 给了我需要的值,但是第二个给了我声明变量时给它的值。 $.getJSON( twitter
我必须更改标记弹出窗口的默认大小以容纳我想放入其中的数据。我更改了一些 map 设置,因此当用户将其拖出 View 时,它总是会弹回最大范围。我遇到的问题是,对于靠近边缘的标记,当它的弹出窗口打开时,
我是一名优秀的程序员,十分优秀!