gpt4 book ai didi

machine-learning - 如何从这么多id中找出异常id

转载 作者:行者123 更新时间:2023-11-30 08:29:31 24 4
gpt4 key购买 nike

我们运行一个联属网络营销计划。注册用户成功招募其他用户后可以获得积分。然而,垃圾邮件发送者正在滥用该程序,并自动注册大量帐户。我们希望通过关闭显然是机器生成的帐户来防止这种情况发生。我的想法是编写一个程序来识别机器生成的帐户名称,或者至少选择一个子集进行手动检查。

到目前为止,我们发现异常id有两类:

  1. 第一个是有一些 id 看起来与其他 id 非常相似,例如:

    • wss12345
    • wss12346
    • wss12347
    • 测试1
    • 测试2
    • ...
  2. 第二个是有一些id看起来像是随机生成的,没有规则,例如:

    • MiDjiSxxiDekiE
    • NiMjKhJixLy
    • DAFDAB7643
    • ...

对于第一个,我使用 Levenshtein(编辑)距离。这个方法可以找出一些id,如类型1所示。(我已经这样做过,并且可以得到很好的性能)

对于第二个,我可以计算 ids 的概率,就像:

id = "DAFDAB7643:
p(id) = p(D)*p(A|D)*p(F|A)*p(D|F)*...*p(3|4)

所以我可以用概率来过滤掉异常的id。 (只是一个想法;我还没有尝试过。)

任何人都可以给我关于这个主题的其他建议吗?我还能如何解决这个问题?您能发现我的尝试中的缺陷或遗漏吗?

最佳答案

  1. 假设这些新帐户引用招聘人员的 ID,我会查看与给定招聘人员相关的新帐户的比率和/或绝对数量。

  2. 对 IP 地址或类似内容的一些分析也可能表明多个用户是否来自同一台计算机。

  3. 我会使用单词字典,并进行与检测不良密码相反的操作 - 人类用户名应该包含字典单词、个人姓名、缺少标点符号、不包含重复字符、大部分为小写等等

  4. 有点回到上面的 1 - 如果招聘人员拥有异常紧密的 ID 集群,使用您已经确定的功能将是一个很好的标志。我认为这本质上可能是@larsmans 直接在问题下发表的评论。

我很想知道重新利用密码检查算法(第 3 项)是否能带来任何好处。

关于machine-learning - 如何从这么多id中找出异常id,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12171817/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com