- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在使用朴素贝叶斯分类器将数千个文档分为 30 个不同的类别。我已经实现了朴素贝叶斯分类器,并通过一些特征选择(主要是过滤无用的单词),我获得了大约 30% 的测试准确率,以及 45% 的训练准确率。这比随机要好得多,但我希望它更好。
我尝试过使用 NB 实现 AdaBoost,但它似乎并没有给出明显更好的结果(文献对此似乎存在分歧,一些论文说使用 NB 的 AdaBoost 并没有给出更好的结果,其他论文却给出了更好的结果)。您是否知道 NB 的任何其他扩展可能会提供更高的准确性?
最佳答案
根据我的经验,经过适当训练的朴素贝叶斯分类器通常非常准确(并且训练速度非常快 - 明显比我曾经使用过的任何分类器构建器都要快)。
因此,当您想要改进分类器预测时,您可以在几个地方查看:
调整分类器(调整分类器的可调参数);
应用某种分类器组合技术(例如,集成、提升、装袋);或者你也可以
查看输入到分类器的数据 - 添加更多数据,改进您的基本解析,或细化您选择的功能数据。
w/r/t朴素贝叶斯分类器,参数调整有限;我建议关注您的数据,即预处理和特征选择的质量。
我。数据解析(预处理)
我假设您的原始数据类似于每个数据点的原始文本字符串,通过一系列处理步骤,您可以将每个字符串转换为每个数据点的结构化向量(一维数组),使得每个偏移量对应于一个特征(通常是一个单词)和该偏移量中的值对应于频率。
词干提取:手动还是使用词干提取库?流行的开源有 Porter、Lancaster 和 Snowball。因此对于例如,如果您有术语“程序员”、“程序”、“编程”,在给定的数据点中编程,词干分析器会将它们减少到单词干(可能程序),所以你的数据的术语向量对于特征程序,点的值为 4,即可能是您想要的。
同义词查找:与词干提取相同的想法——将相关单词折叠成单个单词;因此同义词查找器可以识别开发人员、程序员、编码员和软件工程师,并将它们合并为一个术语
中性词:不同类别出现频率相似的词的特征较差
二.特征选择
考虑 NBC 的一个典型用例:过滤垃圾邮件;您可以很快看到它是如何失败的,也可以很快看到如何改进它。例如,高于平均水平的垃圾邮件过滤器具有细微差别的特征,例如:全部大写的单词频率、标题中单词的频率以及标题中感叹号的出现频率。此外,最好的特征通常不是单个单词,而是单词对或更大的单词组。
三.具体分类器优化
使用“一对多”方案而不是 30 个类 - 换句话说,您从两类分类器(A 类和“所有其他”)开始,然后是结果“所有其他”类别中的内容返回到算法以分类为 B 类和“所有其他”等。
费舍尔方法(可能是优化朴素贝叶斯分类器的最常见方法。)对我来说,我认为 Fisher 对输入概率进行标准化(更准确地说,标准化) NBC 使用特征概率来构建“整个文档”概率。 Fisher 方法计算文档的每个特征的类别概率,然后组合这些特征概率,并将组合概率与随机特征集的概率进行比较。
关于machine-learning - 提高朴素贝叶斯分类器准确性的方法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3473612/
我使用以下代码来查看用户在特定页面上的停留时间。我为此脚本使用了带有 src 属性的隐藏图像: $timer_seconds = 1; while(!connection_aborted()) {
我在 Keras 中使用自定义损失函数: def get_top_one_probability(vector): return (K.exp(vector) / K.sum(K.exp(vect
当我使用 long 来节省一个月毫秒时,我发现一个问题。但我打印负数。所以我做了一个测试 代码如下: LogUtils.d(TAG, "long max time:"+Long.MAX_VALUE);
关于使用 Lenet5 网络解释某些优化器在 MNIST 上的性能,我有几个问题,以及验证损失/准确性与训练损失/准确性图表究竟告诉我们什么。所以一切都是在 Keras 中使用标准的 LeNet5 网
我有 1000 个 pdf(每个 200 页)。 我需要将每个 pdf 添加到 Azure 搜索索引中的索引(作为小文本 block 和相关元数据,例如每个 pdf 200 个 block ) 已达到
我必须在 mssql 数据库中存储一些间隔。我知道日期时间的准确性约为。 3.3ms(只能结束0、3、7)。但是当我计算日期时间之间的间隔时,我发现结果只能以 0、3 和 6 结尾。所以我总结的间隔越
我想制作一个需要将位置精确到大约 1m 或更小的 Android 应用程序。“Fused Location Manager API”是否足够好,或者 GPS 永远不会如此准确,无论是否与其他传感器融合
我想使用 pySerial 的 serial.tools.list_ports.comports() 列出可用的 COM 端口。 阅读documentation : The function retu
使用 pyomo 和 glpk 求解器,我定义了以下目标规则: def cost_rule(m): return (sum(m.rd[i]*m.pRdImp*m.dt - m.vr[i]*m.
我正在遵循“Lucene in Action”中的示例,第 308-315 页,它描述了 Lucene Spatial。我正在使用 lucene 2.9.4。我用过 http://geocoder.u
我一直在试验各种计时方法的代码。创建延迟的一种方法是使用thread.sleep(millis)运行线程,但可以很好地说明,线程“唤醒”的时间并不完全准确,可能在这个时间之前或之后。然后我遇到一个定义
我在使用 boost::sleep() 函数时遇到奇怪的问题。我有这个基本代码: #include #include #include void thread_func() { time
数字示例 我正在使用标准的 pytesseract img 来发送文本。我尝试过仅使用数字选项,90% 的情况下它是完美的,但上面是一个非常错误的例子!这个例子根本没有产生任何字符 如您所见,现在有字
我想从 python 中的图像中提取文本.为了做到这一点,我选择了 pytesseract .当我尝试从图像中提取文本时,结果并不令人满意。我也经历过this并实现了列出的所有技术。然而,它的表现似乎
在每个时代结束时,我得到例如以下输出: Epoch 1/25 2018-08-06 14:54:12.555511: 2/2 [==============================] - 86
我想为我的移动项目需求之一实现条形码。要存储的数据量非常少(<25 个字母数字)。我想知道对于这个项目实现一维条形码或二维条形码(特别是二维码)是否更明智。如果有人能从 1d 与 2d 的角度对我进行
想象一个二元分类问题。假设我在 pred_test 中存储了 800,000 个预测概率。我将 cutoff 定义为 pred_test 中的任何值,以便大于或等于 cutoff 的值被分配值 1 和
已关闭。此问题需要 debugging details 。目前不接受答案。 编辑问题以包含 desired behavior, a specific problem or error, and the
我正在使用 iBeacon 和 Altbeacon 测试定位系统。我发现我的三角测量结果实际上非常准确,但有时需要 5 秒以上才能看到正确的结果。 例如,假设我目前正站在A点。 Altbeacon +
因此,我有 2 个独立的数据表,它们看起来非常相同,但它们行中的值可能不同。 编辑: 我可以通过创建一个可以用作主键的临时标识列来获得唯一 ID,如果这样做更容易的话。所以将 ID 列视为主键。 表A
我是一名优秀的程序员,十分优秀!