gpt4 book ai didi

machine-learning - 朴素贝叶斯分类器——长度差异很大的文档

转载 作者:行者123 更新时间:2023-11-30 08:41:40 25 4
gpt4 key购买 nike

我正在尝试构建一个朴素贝叶斯分类器,它接受一个文档,并将该文档视为一袋单词,将不同的书籍视为单独的类,给出该文档是该书的概率(我知道这有点荒谬)但这是其他事情的起点)。我正在使用这个:http://www.stanford.edu/class/cs124/lec/naivebayes.pdf作为我如何做到这一点的首选。

因此,例如,如果我们将文档 d 作为“福尔摩斯归来”,然后查看一堆书的一堆 p(b|d),“福尔摩斯归来”将会很高和《福尔摩斯历险记》一样,而詹姆斯·乔伊斯的《尤利西斯》的可能性则小得多。

为此,我正在执行 p(b|d) α p(d|b)p(b),其中 p(b) = 1/(# of books)p(d|b)=document[log(p(w|b))] 中所有单词 w 的总和,其中 p(w|b) =(单词 w 在书 b 中出现的次数 + 1)/(书 b 中单词的数量 + 词汇量)

问题是,当我运行这个时,它通常会得到正确的书作为第一个结果,有时会给出类似的书作为高结果,但它往往会用相同的非常长的书集合填充顶部结果,最不可能的书总是诗歌、散文和短篇小说。当我在其中一个短篇小说上运行它时,它仍然具有所有短文档,包括我正在看的文档,其非标准化概率最低或接近最低,并且最可能的书籍仍然是非常长的书籍。所以这个模型是有效的,因为如果一本书足够长,那么由于它有正确的单词而赋予它的权重将足以将它放在上面,但如果一本书太短,那么该权重就不够了而且它仍将接近底部,主要由其他书籍的长度决定。

为什么会发生这种情况?如何修复我的模型以免发生这种情况?

最佳答案

很长的书会有很多字。朴素贝叶斯会青睐这些文档,因为您在输入中使用的所有单词可能在很长的书中多次出现。因为它是一个特征向量(我假设你使用的是一元语法),所以单词的顺序并不重要。因此,您输入中的单词可能会与一本很长的书相匹配,因为这些单词出现在一本很长的书上。

1)如果你想要好的概率,你应该远离朴素贝叶斯。独立性假设会导致非常糟糕的概率结果。有many papers关于其概率值的问题。

2) 文档长度的数量级变化可能很难处理。您可以查找余弦相似度函数以获得有关我们在处理文本时使用归一化的原因的多种解释 - 并尝试将其应用于您的特征向量。

3) 如果您想坚持使用朴素湾,您可能需要尝试使用伯努利分布而不是多项式。它应该较少受到字数/文档长度的影响,因为这似乎是你的问题。

4) 您可能想要申请stop words到你的语料库。

假设您正在自学,将其视为标准分类问题是一个好的开始。如果您对正在处理的特定任务更感兴趣 - 您可能需要研究作者识别,这与您想要做的事情非常密切相关(给定文本,识别谁写了文本 - 您在哪里说给定文本,确定它来自哪本书)。在您的情况下,“作者”将是文本来源的书籍。

关于machine-learning - 朴素贝叶斯分类器——长度差异很大的文档,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20171810/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com