java - weka 培训和 java 培训的不同结果-6ren

java - weka 培训和 java 培训的不同结果

转载作者：行者123 更新时间：2023-11-29 08:06:18

25

4

我正在尝试使用 weka 的 java api 创建一个“自动训练”，但我想我做错了什么，每当我使用带有 10 交叉验证或 66% 百分比拆分的 MultiLayerPerceptron 通过 weka 的界面测试我的 ARFF 文件时，我得到一些令人满意的结果(大约 90%)，但是当我尝试通过 weka 的 API 测试同一个文件时，每个测试基本上返回 0% 匹配(每一行返回 false)

这是 weka 的 gui 的输出:

=== 测试拆分评估 ======总结===

Correctly Classified Instances          78               91.7647 %
Incorrectly Classified Instances         7                8.2353 %
Kappa statistic                          0.8081
Mean absolute error                      0.0817
Root mean squared error                  0.24  
Relative absolute error                 17.742  %
Root relative squared error             51.0603 %
Total Number of Instances               85

=== 按类别分类的详细准确性 ===

                TP Rate   FP Rate   Precision   Recall  F-Measure   ROC Area  Class
                 0.885     0.068      0.852     0.885     0.868      0.958    1
                 0.932     0.115      0.948     0.932     0.94       0.958    0
Weighted Avg.    0.918     0.101      0.919     0.918     0.918      0.958

===混淆矩阵===

  a  b   <-- classified as
 23  3 |  a = 1
  4 55 |  b = 0

这是我在 java 上使用的代码(实际上是在 .NET 上使用 IKVM):

var classifier = new weka.classifiers.functions.MultilayerPerceptron();
classifier.setOptions(weka.core.Utils.splitOptions("-L 0.7 -M 0.3 -N 75 -V 0 -S 0 -E 20 -H a")); //these are the same options (the default options) when the test is run under weka gui

string trainingFile = Properties.Settings.Default.WekaTrainingFile; //the path to the same file I use to test on weka explorer
weka.core.Instances data = null;
data = new weka.core.Instances(new java.io.BufferedReader(new java.io.FileReader(trainingFile))); //loads the file
data.setClassIndex(data.numAttributes() - 1); //set the last column as the class attribute

cl.buildClassifier(data);

var tmp = System.IO.Path.GetTempFileName(); //creates a temp file to create an arff file with a single row with the instance I want to test taken from the arff file loaded previously
using (var f = System.IO.File.CreateText(tmp))
{
    //long code to read data from db and regenerate the line, simulating data coming from the source I really want to test
}

var dataToTest = new weka.core.Instances(new java.io.BufferedReader(new java.io.FileReader(tmp)));
dataToTest.setClassIndex(dataToTest.numAttributes() - 1);

double prediction = 0;

for (int i = 0; i < dataToTest.numInstances(); i++)
{
    weka.core.Instance curr = dataToTest.instance(i);
    weka.core.Instance inst = new weka.core.Instance(data.numAttributes());
    inst.setDataset(data);
    for (int n = 0; n < data.numAttributes(); n++)
    {
        weka.core.Attribute att = dataToTest.attribute(data.attribute(n).name());
        if (att != null)
        {
            if (att.isNominal())
            {
                if ((data.attribute(n).numValues() > 0) && (att.numValues() > 0))
                {
                    String label = curr.stringValue(att);
                    int index = data.attribute(n).indexOfValue(label);
                    if (index != -1)
                        inst.setValue(n, index);
                }
            }
            else if (att.isNumeric())
            {
                inst.setValue(n, curr.value(att));
            }
            else
            {
                throw new InvalidOperationException("Unhandled attribute type!");
            }
        }
    }
    prediction += cl.classifyInstance(inst);
}

//prediction is always 0 here, my ARFF file has two classes: 0 and 1, 92 zeroes and 159 ones

这很有趣，因为如果我将分类器更改为 NaiveBayes，结果将与通过 weka 的 gui 进行的测试相匹配

最佳答案

您正在使用一种已弃用的方式来读取 ARFF 文件。看这个documentation .试试这个:

 import weka.core.converters.ConverterUtils.DataSource;
 ...
 DataSource source = new DataSource("/some/where/data.arff");
 Instances data = source.getDataSet();

请注意，该文档还展示了如何直接连接到数据库，以及绕过临时 ARFF 文件的创建。此外，您可以从数据库中读取并手动创建实例来填充 Instances 对象。

最后，如果只是将代码顶部的分类器类型更改为 NaiveBayes 就解决了问题，那么请检查 weka gui 中 MultilayerPerceptron 的选项，看看它们是否与默认值不同(不同的设置可能导致相同的结果分类器类型以产生不同的结果)。

更新:看起来您在代码中使用的测试数据与在 weka GUI 中使用的测试数据不同(来自数据库与原始训练文件的折叠)；也可能是数据库中的特定数据实际上看起来像 MLP 分类器的 class 0。要验证是否是这种情况，您可以使用 weka 接口(interface)将您的训练 arff 拆分为训练/测试集，然后在您的代码中重复原来的实验。如果结果和gui一样，说明你的数据有问题。如果结果不同，那么我们需要更仔细地查看代码。您要调用的函数是 (from the Doc) :

public Instances trainCV(int numFolds, int numFold)

关于java - weka 培训和 java 培训的不同结果，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/10999792/

25

4

0

文章推荐： Mysql 安全转储和恢复

文章推荐： rust - 将通用结构克隆到特定的生命周期？

文章推荐： macros - 使用宏保持结构字段可见性

weka - 正确分类实例的含义 weka
我最近开始使用 weka，我正在尝试使用朴素贝叶斯将推文分为正面或负面。因此，我有一个训练集，其中包含我为其指定标签的推文，以及一个包含所有带有“正面”标签的推文的测试集。当我运行朴素贝叶斯时，我得到
weka - Weka 中的缺失值——
我正在使用来自 UCI 的成人数据 Here ，当我将它转换为excel文件时==>然后在weka中导入 weka 无法识别缺失值(它告诉 Missing:0 (0%))，但成人数据包含带有“？”的
weka - WEKA 实例预测和混淆矩阵结果之间的区别？
我对数据挖掘并不陌生，所以我完全被 WEKA 结果难住了。希望得到一些帮助。提前致谢! 我有一个具有二进制分类(S，H)的数字向量数据集。我训练了一个 NaiveBayes 模型(尽管方法真的无关紧要
weka - Weka 上多层感知器建模结果的解释
我正在使用 Weka 上的多层感知器生成功率模型，Weka 是一个统计工具箱。 Weka 显示了以下生成的功率模型，但是，我不知道如何解释它。如何使用 Weka 生成的模型计算预测值？我想知道如何用
weka - WEKA 中的类别索引是什么？
我必须在我的 java 代码中使用 WEKA 进行预测。基本上我必须研究给定的代码并重用它。 testdata.setClassIndex(data.numAttributes() - 1); 我无法
weka - 在 Weka 中加载管道分隔文件
您好，我正在尝试使用 java CSVLoader 在 weka 中加载管道分隔文件。看起来 CSVLoader 只加载逗号和制表符。有什么办法可以更改这些加载器上的分隔符吗？有没有人在 Weka
weka - 从命令行输出 Weka 中的混淆矩阵
我已经使用 Weka 3.7.9 将随机森林模型保存到一个文件中，现在我正在尝试针对其他(非常大的)集合(在 Amazon EC2 中的一些大型机器上)对其进行评估。我正在使用以下命令行: > jav
weka - 在分类之后但在评估之前添加 weka 实例？
假设 X是原始的、标记的(即带有训练标签的)数据集，并且 Process(X)返回一组 Y实例已用属性编码并转换为像 Y.arff 这样的对 Weka 友好的文件。还假设Process()有一些“
weka - 删除 Weka 中的缺失值
我正在使用 Weka 中的数据集进行包含缺失值的分类。据我了解，当使用像 NaiveBayes 这样的分类器时，Weka 会自动用训练数据的众数或均值(使用过滤器 unsupervised/attri
weka - 为什么 Weka 不允许我启动关联规则生成？
我已经为我想在 Weka 中使用的数据集创建了一个 arff 文件。该文件被格式化为稀疏 arff 文件。无论如何，我已经成功加载了数据。然后我切换到关联选项卡并设置我的参数。但是，“开始”按钮不会启
weka - 如何从命令行使用 weka 计算最近邻居？
我有一个 csv 文件，其中每一行都是代表数据点的数字向量。我想从命令行使用 weka 来计算 csv 文件中每个数据点的最近邻。我知道如何从命令行进行 k 最近邻分类，但这不是我想要的。我想要真正的
weka - 使用 Weka 过滤属性
我有一个关于在 WEKA 中过滤属性的简单问题。假设我有 30 个类的 500 个属性和每个类的 100 个样本，这等于 3000 行和 500 列。这会导致时间和内存问题，您可以猜到。如何过滤在
weka - ARFF (Weka) 中的缺失值
Weka 中的分类器(例如决策树)将如何解释“？” (表示 ARFF 文件中的缺失值)在学习阶段？Weka 会用一些预定义的值(例如“0”或“false”)替换它，还是会以某种方式影响训练过程？最佳
weka - 如何在 Weka 分类器中使用 svm？
我正在尝试在 Weka 中使用 SVM 分类器。我下载了weka-3-7-13版本。当我单击分类器选项卡时，SVM 不在列表中。如何在这个工具中使用 SVM？请帮助我克服这个问题。最佳答案在 W
weka - 用于文本分类的 Mallet 与 Weka
就目前而言，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引起辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the he
weka - 在 WEKA 中使用带贝叶斯网络的 FilteredClassifier
我正在从命令行运行 WEKA 以创建用于训练的贝叶斯网络模型，然后使用该模型在单独的数据集上进行测试。贝叶斯网络使用带有简单估计器的 TAN 搜索选项。我的培训命令行调用如下所示: java -cp
weka - 如何解释 Weka Logistic 回归输出？
请帮助解释 Weka 库中由 weka.classifiers.functions.Logistic 生成的逻辑回归结果。我使用来自 Weka 示例的数字数据: @relation weather
weka - Weka 中的 10 折交叉验证
对于 Weka 中可用的 10 折交叉验证和传统的 10 折交叉验证之间的区别，我有点困惑。我理解 K 折交叉验证的概念，但是从我读到的 10 -Weka 中的折叠交叉验证有点不同。在 Weka F
weka - 了解 Weka 中的成本敏感评估(成本矩阵)
我正在使用 Weka 3.7.1 我正在尝试使用 weka 分析棒球运动预测。我想使用成本矩阵，因为在我赌博的体育博彩中，不同结果的成本是不一样的。我的数据集很简单:它是一组具有标称类 {WIN,LO
weka - 如何忽略一个功能，同时将其作为 Weka GUI 中功能集的一部分包含在内
我正在使用 Weka GUI 在在线帖子上运行 NaiveBayes 分类器。我正在尝试跟踪错误预测的实例(在线帖子)，以便我可以进一步了解如何改进功能。目前，我有一个解决方法:我生成包含唯一 ID

首页

博学

6Ren·AI

商城

java - weka 培训和 java 培训的不同结果