- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在为一个类(class)项目编写一个朴素贝叶斯分类器,我刚刚让它工作......有点。虽然我确实得到了无错误的输出,但获胜的输出标签的输出概率为 3.89*10^-85。
哇。
对于我可能做错的事情,我有一些想法。首先,我没有标准化各类别的输出百分比,因此所有百分比实际上为零。虽然这会给我看起来不错的数字,但我不知道这是否是正确的做法。
我的第二个想法是减少功能数量。我们的输入数据是一个非常长的文本文件形式的伪图像列表。目前,我们的特征只是图像每个像素的二进制值,对于 28x28 的图像来说,有很多特征。如果我将图像切成一定大小的 block ,例如 7x7,那么实际上会提高输出百分比多少?
tl;dr以下是我试图了解的有关朴素贝叶斯的一般内容:
1)您是否需要标准化每个类测试的输出百分比?
2)太多的特征对结果有多大影响?
预先感谢您能给我的任何帮助。
最佳答案
这可能是正常的。朴素贝叶斯的输出并不意味着是真实的概率。它的目的是在竞争类(class)之间排序分数。
概率如此低的原因是许多朴素贝叶斯实现是正在分类的实例的所有观察到的特征的概率的乘积。如果您要对文本进行分类,则每个特征对于每个类别的条件概率可能较低(例如:低于 0.01)。如果将特征概率乘以 1000 个,您很快就会得到如您报告的那样的数字。
此外,返回的概率不是给定实例的每个类的概率,而是给定类的情况下观察这组特征的概率的估计。因此,你拥有的特征越多,观察到这些确切特征的可能性就越小。使用贝叶斯定理将 argmax_c P(class_c|features)
更改为 argmax_c P(class_c)*P(features|class_c)
,然后将 P( features|class_c)
通过独立性假设进一步简化,这允许将其更改为观察给定类的每个单独特征的概率的乘积。这些假设不会改变 argmax(获胜类别)。
如果我是你,我不会真正关心概率输出,而是关注分类器的准确性并采取措施提高准确性,而不是计算的概率。
关于machine-learning - 朴素贝叶斯分类器 : output percentage is too low,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41194991/
我正在用 C 语言实现一个带有输入和输出重定向的 shell。我可以成功进行输入重定向,但输出重定向不起作用。例如,如果我执行 ls > out.txt,则 out.txt 包含文本“out.txt”
我正在处理创建 AWS API 网关。我正在尝试创建 CloudWatch Log 组并将其命名 API-Gateway-Execution-Logs_${restApiId}/${stageName
我正在修改原作者使用数组构建网页的一些代码: $output[]=$stuff_from_database; $output[]='more stuff'; // etc echo join(
我只想知道它们之间的区别: sort < output 和 sort output 在 Linux 中。它是如何工作的? 最佳答案 这已经在 unix.stackexchange 上讨论过:Perfo
我正在生成外部控制台应用程序并使用异步输出重定向。 as shown in this SO post 我的问题是,在我收到 OutputDataReceived 事件通知之前,生成的进程似乎需要产生一
在 Udemy 上开设类(class)时,我们一直允许使用组件类中的 @Input() 装饰器向组件传递数据。 在阅读 ngBook-2 时,我发现还有另一种方法,即在 @Component 装饰器中
考虑一个 Linux 服务器,它在您的用户的 .bash_profile 中有以下行: echo "Hello world" 因此,每次您通过 ssh 进入它时,您都会看到 Hello world 现
public static void main(String[] args) { String input = new String(JOptionPane.showInputDialog("
我正在使用 MSVS 2008 中的 FFTW3 库对某些数据执行 r2c DFT (n=128)。我已经发现只使用了真实数据 DFT 输出的前半部分……如果我查看我的输出,这似乎是正确的: 0-64
我制作了一个 C 程序,可以从二进制文件中打印出很多值。我相信程序完成它的功能并在它实际显示它吐出的值之前结束。因此,结果我得到了一个可爱的 RUN SUCCESSFUL(总时间:198ms) 突然出
在 hadoop 作业计数器中,“映射输出具体化字节”与“映射输出字节”之间有什么区别?当我禁用映射输出压缩时我没有看到前者所以我猜它是真正的输出字节(压缩)而后者是未压缩的字节? 最佳答案 我认为你
有很多 Stack Overflow 文章与此相关,但没有直接的答案。 这条命令会输出一堆单词 OutputVariable.exe %FILEPATH% 输出: Mary had a little
互联网上的许多文章都使用“标准输入/输出/错误流”术语好像每个术语都与使用的“标准输入/输出/错误设备”术语具有相同的含义在其他文章上。例如,很多文章说标准输出流默认是监视器,但可以重定向到文件、打印
我在 Keras 中使用一些 tensorflow 函数(reduce_sum 和 l2_normalize)在最后一层构建模型时遇到了这个问题。我已经搜索了一个解决方案,但所有这些都与“Keras
我有来自 API 的自定义输出,我想将其格式化为带有一些颜色值的字符串。 最佳答案 输出 channel 可以用 TmLanguage grammar 着色. Output Colorizer扩展扩展
我正在寻找一种方法来查看虚拟机创建过程中发生的情况,因为我使用复杂的集群配置并测试其是否正常工作,我需要能够查看输出,在某些情况下我是不是因为敏感。这与运行remote-exec选项有关 module
当谷歌搜索此错误时没有看到任何相关结果,所以我想发布它。 stack build Building all executables for `gitchapter' once. After a suc
假设module_a里面有register_a,它需要链接到module_b。 register_a 是否应该单独声明并分配给 module_a 的输出: reg register_a; assign
我正在寻找一种方法来查看虚拟机创建过程中发生的情况,因为我使用复杂的集群配置并测试其是否正常工作,我需要能够查看输出,在某些情况下我是不是因为敏感。这与运行remote-exec选项有关 module
输入文件如下 eno::ename::dept::sal 101::emp1::comp1::2800000 201::emp2::comp2::2800000 301::emp3::comp3::3
我是一名优秀的程序员,十分优秀!