gpt4 book ai didi

java - 计算用于电子邮件分类的语言模型的困惑度

转载 作者:搜寻专家 更新时间:2023-10-30 21:33:15 24 4
gpt4 key购买 nike

我有一个特征集,其中包含来自电子邮件语料库的 500 个最常出现的 uni-gram。我一直在使用它根据测试电子邮件中每个单词 any 的出现/不存在使用 c5.0 对电子邮件进行分类。

现在我需要计算特征集中术语的困惑度,并用它来对电子邮件进行分类。我想知道有没有人在语言建模方面有任何经验,并且知道我将如何计算模型的困惑度,任何帮助都会很棒!

我应该补充一点,我知道可以自动为我执行此操作的工具,例如 SRILM/CMU-LMtoolkit,但我宁愿自己从头开始制作它,作为我最后一年项目的一部分!我只需要关于如何开始的提示...也许是指向“使用困惑计算和分类的白痴指南”的链接!!

非常感谢!!

最佳答案

CMU course exercise似乎有你想要的。是的,他们建议您使用 SRILM,但请参阅“语言模型”部分——它指向书籍章节、Microsoft Research 的教程和该教程的演示文稿。

希望这对您有所帮助!

关于java - 计算用于电子邮件分类的语言模型的困惑度,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5379964/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com