gpt4 book ai didi

java - 如何在 Apache Mahout 中对数值数据进行分类?

转载 作者:可可西里 更新时间:2023-11-01 16:59:43 26 4
gpt4 key购买 nike

我有一个格式为 class, unigram count, bigram count, sentiment 的数值数据集。我浏览了一些 Apache Mahout 文档,它们都是关于文本数据的。我知道我需要执行 3 个步骤来分类:转换为序列文件、向量化序列文件、将其传递给训练朴素贝叶斯分类器。但是我很难理解在 Mahout 中对文本数据集进行分类与对数值数据集进行分类之间的区别。在我的情况下我需要做些什么不同的事情?如果有任何帮助,我将不胜感激。

最佳答案

您可能知道,mahout 不能使用文本数据来训练模型。如果您从数值数据集开始,分类会更容易,因为象夫处理的 vector 是数值数据 vector 。

我在文本数据集上使用了 mahout,我知道在那种情况下,我必须使用字典将文本数据转换为数字数据。一些算法比其他算法处理得更好(例如,朴素贝叶斯强烈偏好文本类数据)。

因此,在您的情况下,请尝试使用其他分类器(如随机福雷斯特或在线逻辑回归)以获得更有效的结果。根据我的经验,使用随机 forrest,您只需定义您拥有的特征类型(在您的情况下,所有特征都是数字的),这样分类就可以很容易地完成。如果您想坚持使用朴素贝叶斯,我相信它仍然可以对您的数值数据集进行分类,但我从未使用过它,所以我无法提供更多帮助。

关于java - 如何在 Apache Mahout 中对数值数据进行分类?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25839302/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com