gpt4 book ai didi

text - 是否可以用作者信息补充朴素贝叶斯文本分类算法?

转载 作者:行者123 更新时间:2023-11-30 09:23:55 24 4
gpt4 key购买 nike

我正在开展一个文本分类项目,尝试将主题分类分配给国会记录中的演讲。

使用国会法案项目 ( http://congressionalbills.org/ ) 中的主题代码,我已将提及特定法案的演讲标记为属于该法案的主题。我将其用作模型的“训练集”。

我有一个“普通”朴素贝叶斯分类器,工作得足够好,但我一直觉得,通过合并正在发表演讲的国 session 员的信息,我可以从算法中获得更好的准确性(例如,某些成员非常比其他人更有可能谈论外交政策)。

一种可能性是用演讲者观察到的先前演讲来替换 NB 分类器中的先验(通常定义为训练集中具有给定分类的文档的比例)。

这值得追求吗?是否存在遵循同样逻辑的现有方法?我对潜在狄利克雷分配模型中的“作者主题模型”有点熟悉,但我喜欢 NB 模型的简单性。

最佳答案

无需修改任何内容,只需将此信息添加到您的朴素贝叶斯中即可正常工作。

正如前面在评论中提到的 - 不要更改任何先验 - 先验概率为 P(class),这与实际功能无关

只需在计算中添加与作者身份相对应的另一个特征,例如“作者:作者”并像往常一样训练朴素贝叶斯,即。为每个 classAUTHOR 计算 P(class|author:AUTHOR) 并在稍后的分类过程中使用它。如果您当前的表示是一袋词,添加一个“author:AUTHOR”形式的“人工”词就足够了。

另一种选择是为每个作者训练独立的分类器,这将捕获特定于个人的语音类型,例如 - 一个人仅在谈论“自然”时使用大量“环境”一词,而其他人只是喜欢在每个演讲中添加这个词“哦,在我们本地的环境中......”。独立的 NB 会捕获此类现象。

关于text - 是否可以用作者信息补充朴素贝叶斯文本分类算法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18391035/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com