- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我现在正尝试使用 Weka 在我的训练数据上构建 J48 (C4.5) 分类器模型。
首先我这样做,似乎没问题:
java -Xmx10G -cp /weka/weka.jar weka.core.converters.TextDirectoryLoader -dir /home/test/cats > /home/test/cats.arff
这似乎也行:
java -Xmx10G -cp /weka/weka.jar weka.filters.unsupervised.attribute.StringToWordVector -i /home/test/cats.arff -o /home/test/cats-vector.arff
这不行:
java -Xmx10G -cp /weka/weka.jar weka.classifiers.trees.J48 -t /home/test/cats-vector.arff -d /home/test/cats.model
它给出了以下错误:
weka.core.UnsupportedAttributeTypeException: weka.classifiers.trees.j48.C45Prune ableClassifierTree: Cannot handle numeric class!
at weka.core.Capabilities.test(Capabilities.java:954)
at weka.core.Capabilities.test(Capabilities.java:1110)
at weka.core.Capabilities.test(Capabilities.java:1023)
at weka.core.Capabilities.testWithFail(Capabilities.java:1302)
at weka.classifiers.trees.j48.C45PruneableClassifierTree.buildClassifier (C45PruneableClassifierTree.java:116)
at weka.classifiers.trees.J48.buildClassifier(J48.java:236)
at weka.classifiers.Evaluation.evaluateModel(Evaluation.java:1076)
at weka.classifiers.Classifier.runClassifier(Classifier.java:312)
at weka.classifiers.trees.J48.main(J48.java:948)
然后我尝试了这个:
java -Xmx10G -cp /weka/weka.jar weka.classifiers.trees.J48 -t /home/test/cats.arff -d /home/test/cats.model
这也给出了错误:
weka.core.UnsupportedAttributeTypeException: weka.classifiers.trees.j48.C45PruneableClassifierTree: Cannot handle string attributes!
at weka.core.Capabilities.test(Capabilities.java:980)
at weka.core.Capabilities.test(Capabilities.java:869)
at weka.core.Capabilities.test(Capabilities.java:1085)
at weka.core.Capabilities.test(Capabilities.java:1023)
at weka.core.Capabilities.testWithFail(Capabilities.java:1302)
at weka.classifiers.trees.j48.C45PruneableClassifierTree.buildClassifier(C45PruneableClassifierTree.java:116)
at weka.classifiers.trees.J48.buildClassifier(J48.java:236)
at weka.classifiers.Evaluation.evaluateModel(Evaluation.java:1076)
at weka.classifiers.Classifier.runClassifier(Classifier.java:312)
at weka.classifiers.trees.J48.main(J48.java:948)
显然我以某种方式准备了错误的数据(顺便说一句,输入是子目录中的文本文件,这些文件由我想要的类别命名)。但我认为我是在遵循 Weka Wiki 上的说明: Weka Wiki Categorizing Text Files Weka Wiki Primer
那我做错了什么?我想使用 J48,因为它在测试中对我的数据提供了高精度。那么我应该如何处理我的数据才能让 J48 分类器接受它呢?还是我需要使用不同的分类器?
请帮忙!
最佳答案
词向量可以像这样转换为二进制:
java -Xmx4G -cp /weka/weka.jar weka.filters.unsupervised.attribute.NumericToBinary -i /home/test/cats-vector.arff -o /home/test/cats-binary.arff
虽然这会增加您正在训练的数据类型的偏差。这意味着彼此非常接近的二进制字符串被视为与距离较远的字符串更相似。如果你想消除这种偏见并将每个字符串视为一个完全独特的实体,那么使用 @attribute class {ABC, DEF, GHI, etc}
然后就可以了!
如果您真的想传达这些功能很重要并且根本不相关,请为每个字符串创建一个完整的列,当行具有该类别时,它的值为“1”,当它具有该类别时,值为 0才不是。这会创建非常稀疏的数据,但随后学习算法会倾向于扫描该数据以获取信息。
关于Weka J48 分类器 : Cannot handle numeric class?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7932888/
我是一名优秀的程序员,十分优秀!