gpt4 book ai didi

python - 具有变化的先验概率的文本数据集的多类 NaiveBayes 分类

转载 作者:行者123 更新时间:2023-11-30 09:11:48 27 4
gpt4 key购买 nike

我遇到了使用朴素贝叶斯将文档分类为各种类别问题的问题。

实际上我想知道 P(C) 或我们最初掌握的类别的先验概率会随着时间的推移而不断变化。例如,对于类(class) - [音乐、体育、新闻] 初始概率为 [.25, .25, .50]

现在假设在某个月的一段时间内,如果我们遇到了洪水与体育相关的文档(例如 80% 的体育),那么我们的 NaiveBayes 将失败,因为它将基于先验概率因素,该因素表明只有 25% 是体育。遇到这样的情况我们该如何处理?

最佳答案

如果您知道先验发生变化,则应该定期重新调整它们(通过收集可代表新先验的新训练集)。一般来说,如果先验发生变化,并且您不会将此信息提供给分类器,则每种 ML 方法都会在准确性方面失败。您至少需要分类器的某种反馈。然后,例如,如果您有一个闭环,您可以在其中获取分类是否正确的信息,并且您假设只有先验发生变化 - 您可以简单地在线学习更改先验(通过任何优化,因为很容易适应新的情况)先验)。

一般来说,您应该关注概念漂移现象。

关于python - 具有变化的先验概率的文本数据集的多类 NaiveBayes 分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34122417/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com