gpt4 book ai didi

c# - 计算 token 在贝叶斯垃圾邮件过滤器中成为垃圾邮件的概率

转载 作者:太空狗 更新时间:2023-10-29 19:44:44 27 4
gpt4 key购买 nike

我最近写了一个贝叶斯垃圾邮件过滤器,我用了Paul Graham's article Plan for Spaman implementation of it in C# I found on codeproject作为创建我自己的过滤器的引用。

我刚刚注意到 CodeProject 上的实现使用唯一标记的总数来计算标记是垃圾邮件的概率(例如,如果火腿语料库总共包含 10000 个标记,但有 1500 个不正确的标记,则 1500 用于计算probability as ngood),但在我的实现中,我使用了 Paul Graham 文章中提到的帖子数量,这让我想知道其中哪一个在计算概率时应该更好:

  1. 帖子数(如 Paul Graham 的文章中所述)
  2. 唯一 token 总数(在 codeproject 的实现中使用)
  3. token 总数
  4. 包含的 token 总数(即 b + g >= 5 的那些 token )
  5. 唯一包含的 token 总数

最佳答案

This EACL paper by Karl-Michael Schneider(PDF)说你应该使用多项式模型,即总 token 数,来计算概率。具体计算请看论文。

关于c# - 计算 token 在贝叶斯垃圾邮件过滤器中成为垃圾邮件的概率,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/719983/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com