gpt4 book ai didi

machine-learning - 为什么 WEKA-TestSets 必须有一个 class 属性?

转载 作者:行者123 更新时间:2023-11-30 08:47:24 24 4
gpt4 key购买 nike

我有非常明确的机器学习训练集(仅字符串属性)。

例如

@relation training_rel

@attribute class {politics,sports}
@attribute text string

@data
politics,'some text about politics over here'
... // a lot of other training instances of class politics
sports,'and now some sports over here'
... // a lot of other training instances of class sports

好吧,这是我的训练集,当然只是一个例子......现在我想构建一个分类器(NaiveBayes)。这工作完全没问题。我知道大多数分类器无法处理文本,所以我必须过滤我的数据。我为此使用 StringToWordVector。

我发现的所有网络示例都定义了具有类值的测试实例( http://www.cs.ubc.ca/labs/beta/Projects/autoweka/datasets/ )但为什么?我的意思是我不知道我的文本属于政治还是体育,这就是为什么我使用分类器来了解这个......我理解错了吗?

最佳答案

测试数据集中的标签用于分类器评估目的。您可以根据训练数据集训练模型,并在测试数据集上评估模型性能。如果没有标签,您将无法评估测试数据。

在实际使用的时候,你不会知道实际的标签。因此,让测试数据代表真实数据集非常重要。否则你的评估结果就没有值(value)。

关于machine-learning - 为什么 WEKA-TestSets 必须有一个 class 属性?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26304959/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com