php - 审查可能包含标记的不当词的最佳方法是什么？-6ren

php - 审查可能包含标记的不当词的最佳方法是什么？

转载作者：行者123 更新时间：2023-12-04 05:16:20

24

4

我运行一个大型网站，其中包含数百万个用户生成的包含 HTML 的帖子。其中一些帖子包含我的广告商不想在旁边做广告的敏感词。与其删除这些帖子，我宁愿删除“坏”字眼。我还需要保留标记，因为让用户标记他们的帖子是该网站的一个主要功能。

我目前正在使用搜索并替换为 str_ireplace() ，但我们的作者已经变得聪明，并且正在做一些事情(如下)会漏掉我的原始过滤器。我可以剥离标签并检测不适当的词，但我正在寻找一种替换词的方法，同时保持标记不变。

例子:

成功审查:

input:  "<p>Mary is a bitch.</p>"
output: "<p>Mary is a *****.</p>"

审查不成功:

input:          "<p>Mary is a <strong>b</strong>itch.</p>"
failed output:  "<p>Mary is a <strong>b</strong>itch.</p>" 
desired output: "<p>Mary is a <strong>*</strong>****.</p>"

最佳答案

只是为了好玩，这里有一种快速而肮脏的方式:

$badWords = array('bitch', 'jerk');
$input = '<p>Mary is a <strong>b</strong>itch. </p>';

$arr = explode(' ', $input);

foreach($arr as $key => $word)
{
    $word = str_replace('.', '', strip_tags($word));
    if(in_array($word, $badWords))
    {
        $arr[$key] = '*****';
    }
}

$output = implode(' ', $arr);
echo $output;

输出

<p>Mary is a ***** </p>

以上将文本拆分为单词，适用于 strip_tags()在每个单词上，这样它就不会影响整个内容。

不过，正如评论指出的那样，仍有很多方法可以解决。你永远不会得到一个完美的解决方案来处理他们投入的一切——你需要创造一些接近人工智能的东西。我认为最好的真正解决方案是 strip_tags()在整个帖子中搜索坏词，如果找到的话，标记帖子以引起版主注意。或者只是拥有一个带有活跃版主的报告发布系统。

关于php - 审查可能包含标记的不当词的最佳方法是什么？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/14216524/

24

4

0

文章推荐： Mako 模板过滤器排序

文章推荐： c - 在链接描述文件中提取存档文件

文章推荐： clojure - 打印集合中的每个元素并返回 TRUE

文章推荐： r - 按时间序列转换时间

java - 替换/审查
我正在开发一个名为 Quiz 的系统... 最后剩下的就是“线索”。目前我有我想从 xml 中删除线索，因为很难
github - 如何在新提交后自动取消批准 github 审查
一旦拉取请求被批准，如果还有进一步的提交: 拉取请求应该转到未获批准自动状态。这能做到吗？最佳答案能力推送新提交时取消过时的拉取请求批准是下的设置合并前需要拉取请求审查在 branch
ios - 提交以供Testflight(iOS)审查
我想发送我的App进行外部Beta测试，所以我想为此使用Apple的新TestFlight系统。我设法邀请了内部测试人员，他们可以测试该应用程序，因此我发现我必须将该应用程序提交给外部Beta测试。
ruby - 审查 ruby "if"声明
对于以某种方式使这个 if 条件更短(更优雅)，你有什么建议吗？ if (@path.start_with? "scp" || @path.start_with? "http") @source
database-design - 管理更新-审查-发布工作流程的最佳方式？
我管理一个在线目录。目前，内部人员手动更新，他们的更改立即可见。现在我们要添加一个验证步骤:Tom 进行更改，Jerry 批准。我看到两条路，但都不优雅。保留整个数据库的第二个“工作副本”。在同
审查 STDIN 中找到的单词并打印到 STDOUT 不起作用
我的程序应该采用任意数量的单字文本字符串参数，每个参数的长度小于 128 个字符。它将所有文本从 stdin 复制到 stdout，但输入中看到的任何单词都会被单词 CENSORED 替换。到目前为止
github - 要求在没有 "write"访问权限的分支保护规则中进行 PR 审查
我有一个团队在几个 GitHub 存储库中工作。每个存储库都有负责人(维护者)对拉取请求进行最终审查，如果可以则将其合并到 master 中。所有其他成员都是此存储库的开发人员和审阅者(但可能在另一个
android - 如何发送反馈/审查/编辑 Android 开发指南中的内容？
是否有任何官方/有效的方式来发送对 Android 开发者指南的反馈？我注意到一个错误(一个页面建议使用文档中列为已弃用的方法)并且想知道是否有办法向网站上的工作人员指出它，但我找不到任何东西。最佳
asp.net-mvc-3 - 审查 Orchard 项目
按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the
azure - 让 Azure DevOps 审查 GitHub 拉取请求
(来源:azureedge.net) 我的代码存储库位于 GitHub 中，我的管道在 Azure DevOps 中配置。我需要让 Azure DevOps 检查和过滤提交到我的 GitHub 存储
coding-style - Lisp:从列表中删除尾随 nil 的优雅方法？ (审查)
我想编写一个函数，从列表中删除尾随的 nil。我首先尝试用递归优雅地写它，但结果是这样的: (defun strip-tail (lst) (let ((last-item-pos (positi
Git 审查 : submit particular commit from multiple commits
我在 git review 上得到以下内容: git review You are about to submit multiple commits. This is expected if you
ios - 绕过 Itunes Connect Testflight app-beta 审查
我正在使用 Apple iTunes Connect 网站。我希望我的 iPhone friend 可以通过 testflight 安装我的应用程序。我的 friend 不属于我的工作团队，因此他没有
open-source - 开源 ERP 审查(截至 2013 年 5 月)
就目前而言，这个问题不适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the
visual-studio-2010 - $ git 审查 git : 'review' is not a git command. 见 'git --help'
我在 visual studio 2010 中使用 git 进行源代码控制。我可以使用诸如“git status”、“git commit”之类的命令，但是当我尝试使用“git review”时，我得

首页

博学

6Ren·AI

商城

php - 审查可能包含标记的不当词的最佳方法是什么？