gpt4 book ai didi

java - 实例中没有一类的 ARFF

转载 作者:行者123 更新时间:2023-11-30 07:06:35 24 4
gpt4 key购买 nike

所以,我一直在使用本教程 https://weka.wikispaces.com/Text+categorization+with+WEKA 中的示例“TextCategorizationTest.java” .

我有一个目录,其中有两个文件夹:“neg”和“pos”。这两个文件夹代表我的 ARRF 中应包含的类。问题是,当尝试创建 ARFF 文件时,实例不包含“pos”属性类,但它们确实包含属性类“neg”。

这是我的 ARFF 文件:http://pastebin.com/6nGWEyMq

如您所见,“pos”实例以以下格式呈现:@数据{1 1,3 1,24 1,27 1,29 1,37 ...}“neg”实例以这种格式呈现:{0 负,1 1,2 1,3 1,6 1 ...}

我该如何解决此 ARFF 问题?我会接受 weka 代码或 weka GUI 的解决方案。

最佳答案

您的 ARFF 文件完全没问题,无需更改。

您的 ARFF 文件是稀疏格式,这意味着值为 0 的属性将被省略。对于您期望很多属性为 0 的场景,例如字数统计,这种格式更加紧凑。

格式为:

{index value,index value,index value, ...}

但正如我所说,值为 0 的属性将被省略,因此此处仅列出非 0 属性的索引。

标称属性使用其值索引(不要与属性索引混淆)进行存储,并且类属性定义(索引为 0 的第一个属性)的顺序为 {pos,neg},因此“pos”的值索引为 0,“neg”的值索引为“1”。这样所有“pos”条目都会丢失,因为“pos”(索引为 0)是默认值。

某些数据行的第一列采用稀疏格式(如您发布的那样):

@data
{1 1,3 1,24 1,27 1, ...}
{1 1,4 1,5 1,8 1,17 1,24 1,26 1,29 1, ...}
...
{0 neg,17 1, ...}

这相当于以下密集格式:

@data
{0,1,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,1,0,0, ...}
{0,1,0,0,1,1,0,0,1,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,1,0,0,1, ...}
...
{1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0, ...}

关于java - 实例中没有一类的 ARFF,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40023066/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com