gpt4 book ai didi

machine-learning - 需要多少文档来训练朴素贝叶斯?

转载 作者:行者123 更新时间:2023-11-30 08:33:18 25 4
gpt4 key购买 nike

我刚刚从头开始创建了自己的朴素贝叶斯模型,并在 776 个文档上对其进行了训练。我尝试对文档进行分类,但在所有三个测试文档上对文档的分类都是错误的。与其他类别相比,它应该是的类别甚至具有最低的概率(这是针对三个测试文档中的两个)。

我应该增加培训文档的数量吗?我不认为这是我的代码,因为我检查了计算,但我不知道,也许compute_numerators函数以某种方式是错误的?对于分子部分,由于下溢问题,我使用了对数,并总结了术语的概率和 (number_of_documents_in_category/overall_number_of_documents) 的概率 http://i.stack.imgur.com/GIwIp.png

super 困惑和沮丧,因为这花了我很长时间,现在我觉得它毫无意义,因为它甚至没有正确分类一个文档:(

@鲍勃·狄龙,您好,感谢您的详尽回复。我最大的问题是你所说的可分离是什么意思。你的意思是类之间的文档是否有明显的区别?我真的不知道该如何回答。数据是由人类分类的,因此分离是可能的,但也许它与其他类型的类别非常接近,以至于变得模糊?也许计算机无法识别被分类为一类事物和另一类事物所使用的单词的差异?我必须保留这些类别,我不能重新排列类别,它们必须保持原样。我不确定如何在 R 中进行原型(prototype)设计,我是否仍然需要获取文本数据并运行它?我是否还需要创建标记化等?我将研究信息增益和支持向量机。我可能会回帖。谢谢!

最佳答案

I just created my own Naive Bayes model from scratch and trained it on 776 documents

朴素贝叶斯,正如它的名字所说,是一种朴素算法。与支持向量机或(深度)神经网络等现代方法相比,它非常糟糕。使用它时您应该记住这一点:期望得到比抛硬币更好的结果,但不会太多。

tried classifying the documents but it's classified the documents wrong on all three of the test documents

只有三个测试文档?这很少,什么也没有告诉你。如果您总共有 x 个文档,则应至少使用 20% 进行测试。还可以考虑使用交叉验证。

Should I increase the number of training documents?

这会有所帮助,是的。机器学习的黄金经验法则是,更多的数据通常会击败更好的算法。当然,我们不可能总是获得更多的数据,或者我们无法承担使用更多数据的处理能力,因此更好的算法很重要。

为了能够看到改进,您还需要使用更多测试数据。

结论:对更多数据进行测试。如果您有 779 文档,请至少使用 100 进行测试或执行 cross validation 。如果您的准确率高于 50-60%,请高兴,这对于如此大量的数据和朴素贝叶斯来说已经足够了。

关于machine-learning - 需要多少文档来训练朴素贝叶斯?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31842999/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com