gpt4 book ai didi

machine-learning - Mahout 的基线分类精度

转载 作者:行者123 更新时间:2023-11-30 09:22:40 25 4
gpt4 key购买 nike

在他的Data Mining with Weka中在类(class)中,Witten 教授强调了根据更简单的分类器检查分类器的重要性,例如选择最常见类别的 ZeroR 分类器(如果您奇特的机器学习算法勉强击败 ZeroR 的准确性,那么它可能工作得不太好)。

有没有办法检查使用 Apache Mahout 构建的分类器的基线准确性,无论是使用 ZeroR 还是其他东西?

最佳答案

获取您的数据,计算类(class)发生的频率。

这就是 ZeroR 所做的。因为它太简单了,我不认为 Mahout 将它包含在他们的框架中。

编写 MapReduce 作业来执行此操作相当简单:

映射器:

  • 将类作为键,1作为值(让映射器预先计算整个输入的总和以提高网络效率或使用组合器)

reducer

  • 对所有键求和,取最大值并除以所有类的总和

然后您就会知道通过预测多数类别可以获得多少基线准确度。

Spark 实现类似:

按类别分组,然后对每个类别进行计数,然后除以所有类别的总和。选择最大值,这是基线。

关于machine-learning - Mahout 的基线分类精度,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28735445/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com