- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在尝试构建一个朴素贝叶斯分类器,它接受一个文档,并将该文档视为一袋单词,将不同的书籍视为单独的类,给出该文档是该书的概率(我知道这有点荒谬)但这是其他事情的起点)。我正在使用这个:http://www.stanford.edu/class/cs124/lec/naivebayes.pdf作为我如何做到这一点的首选。
因此,例如,如果我们将文档 d 作为“福尔摩斯归来”,然后查看一堆书的一堆 p(b|d),“福尔摩斯归来”将会很高和《福尔摩斯历险记》一样,而詹姆斯·乔伊斯的《尤利西斯》的可能性则小得多。
为此,我正在执行 p(b|d) α p(d|b)p(b)
,其中 p(b) = 1/(# of books)
和 p(d|b)=document[log(p(w|b))]
中所有单词 w 的总和,其中 p(w|b) =(单词 w 在书 b 中出现的次数 + 1)/(书 b 中单词的数量 + 词汇量)
。
问题是,当我运行这个时,它通常会得到正确的书作为第一个结果,有时会给出类似的书作为高结果,但它往往会用相同的非常长的书集合填充顶部结果,最不可能的书总是诗歌、散文和短篇小说。当我在其中一个短篇小说上运行它时,它仍然具有所有短文档,包括我正在看的文档,其非标准化概率最低或接近最低,并且最可能的书籍仍然是非常长的书籍。所以这个模型是有效的,因为如果一本书足够长,那么由于它有正确的单词而赋予它的权重将足以将它放在上面,但如果一本书太短,那么该权重就不够了而且它仍将接近底部,主要由其他书籍的长度决定。
为什么会发生这种情况?如何修复我的模型以免发生这种情况?
最佳答案
很长的书会有很多字。朴素贝叶斯会青睐这些文档,因为您在输入中使用的所有单词可能在很长的书中多次出现。因为它是一个特征向量(我假设你使用的是一元语法),所以单词的顺序并不重要。因此,您输入中的单词可能会与一本很长的书相匹配,因为这些单词出现在一本很长的书上。
1)如果你想要好的概率,你应该远离朴素贝叶斯。独立性假设会导致非常糟糕的概率结果。有many papers关于其概率值的问题。
2) 文档长度的数量级变化可能很难处理。您可以查找余弦相似度函数以获得有关我们在处理文本时使用归一化的原因的多种解释 - 并尝试将其应用于您的特征向量。
3) 如果您想坚持使用朴素湾,您可能需要尝试使用伯努利分布而不是多项式。它应该较少受到字数/文档长度的影响,因为这似乎是你的问题。
4) 您可能想要申请stop words到你的语料库。
假设您正在自学,将其视为标准分类问题是一个好的开始。如果您对正在处理的特定任务更感兴趣 - 您可能需要研究作者识别,这与您想要做的事情非常密切相关(给定文本,识别谁写了文本 - 您在哪里说给定文本,确定它来自哪本书)。在您的情况下,“作者”将是文本来源的书籍。
关于machine-learning - 朴素贝叶斯分类器——长度差异很大的文档,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20171810/
有没有一个简单的答案:为什么 GHC 这么大? OCaml:2MB Python:15MB SBCL:9MB OpenJRE - 26MB GHC:113MB 对“如果 Haskell 是正确的工具,
我发现我的 access_log 占用了我的大部分硬盘。它的大小超过 200 GB。我怎样才能重置它? 我在装有 Plesk 的 CentOS 服务器上使用 Apache 2.2.3。 谢谢你们 !
我正在使用 Java 中的 BeanShell 解释器来解决字符串计算问题。问题是我自己做了一些解释器无法完成的解析并将部分结果存储在 BigInteger 中。然后我将所有内容拼凑起来并交给解释器来
我在我的 android 项目中使用 OpenCV native 库。它是一个带有一个 CameraScreen 的 hello world 项目,它已经有 40mb。我怎样才能减少 apk 的大小,
我使用基于 Laravel 和 Vue.js 的 Laravue Dashboard,在在线服务器上运行,而不是本地主机,它是全新安装,没有进行任何编辑。 我的问题是: 运行 npm run watc
关闭。这个问题需要更多focused .它目前不接受答案。 想改进这个问题吗? 更新问题,使其只关注一个问题 editing this post . 关闭 5 年前。 Improve this qu
我广泛使用了 Kendo DataSourceResult ToDataSourceResult(this IQueryable enumerable, DataSourceRequest reque
我使用 phonegap 构建 html\css 应用程序陪审团手机给我 div: 并且模拟器中的最小高度太大,我在底部看到黑线像这样: 如果我在 css 文件中更改 min-height: 736
以下工作正常但速度太慢。只需要知道B表中有匹配的记录,有什么技巧吗? (奇怪的是相反的搜索:找到不加入的记录(IS NULL)非常快) SELECT TableA.id FROM TableA
我正在使用 Vue.js,我的项目中只有 4 个组件。 我只导入了bootstrap、jquery 和lodash: import { map } from 'lodash'; import 'boo
我有 2 个字谜检测功能;一个使用排序和比较,另一个跟踪每个字母字符出现的次数。 这里假设传递给函数的两个字符串是相同的,第一个随机生成(未排序),第二个 = 给第一个,这样两个函数都“一路”执行并返
我正在尝试编写一个脚本,该脚本将通过 HTTP 同时下载最多 N 个文件。 我以前用过 AnyEvent::Worker::Pool管理阻塞任务池。我也用过 AnyEvent::HTTP结合AnyEv
我是一名优秀的程序员,十分优秀!