gpt4 book ai didi

c# - c#中的html白名单

转载 作者:太空狗 更新时间:2023-10-29 16:43:23 25 4
gpt4 key购买 nike

花了大约 30 分钟左右的时间在 SO 上寻找这个问题的最终解决方案。

这个问题好像被问过很多次了,但是...

  • 大多数解决方案都使用正则表达式。
  • 有很多帖子说不应该使用正则表达式来处理 html。
  • 有很多答案只是提供了 HTMLAgilityPack(在 Codeplex 上)的链接,但没有关于如何使用此包来满足规定要求的真实示例。

所以我正在寻找满足以下要求的最佳解决方案。

  • 我想提供一个允许的 HTML 标签列表。
  • 任何不在允许列表中的标签都应连同它们的属性和内容一起删除。
  • 允许列表中的任何标签都应与属性和内容一起保留。
  • 该解决方案应应对不同的本地化 - 可能会使用使用英语以外的语言和字符集的用户。
  • [已添加] 该解决方案应处理论坛帖子等文本,而不是完整的 html 页面 - 因此允许使用 b u i 等标签,但不允许使用 script div 等标签,应将其删除。

我正在寻找 C# 解决方案,如果最好使用 RegEx,那么我很乐意这样做。如果有一个现有的库可以做到这一点,我也很乐意使用它们。如果可能,我将不胜感激。

我正在寻找一种明确的、经过实践检验的方法来解决这个问题,而不是广泛的辩论+封闭的帖子等:) :)

提前致谢。

最佳答案

您可以使用 Html Agility Pack用于解析 HTML。然后您可以按照自己喜欢的方式处理这些元素,然后再次将其写回 HTML。

关于c# - c#中的html白名单,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6437106/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com