gpt4 book ai didi

machine-learning - 使用 Weka 预测测试数据集中的文本数据标签?

转载 作者:行者123 更新时间:2023-11-30 09:02:14 27 4
gpt4 key购买 nike

我正在使用 Weka gui 在数据集上训练 SVM 分类器(使用 libSVM)。 .arff 文件中的数据为

@relation Expandtext

@attribute message string
@attribute Class {positive, negative, objective}

@data

我用 String-to-Word Vector 将它变成一个词袋,运行 SVM 并获得不错的分类率。现在我有了测试数据,我想预测它们的标签,但我不知道。同样,它的 header 信息是相同的,但对于每个类,它都标有问号(?)即

'Musical awareness: Great Big Beautiful Tomorrow has an ending\u002c Now is the time does not', ?

我再次对它进行了预处理,字符串到词向量,类与训练数据的位置相同。

我进入“分类”菜单,加载经过训练的 SVM 模型,选择“提供的测试数据”,加载测试数据,然后右键单击模型,显示“在当前测试集上重新评估模型”,但它给我一个测试和训练不兼容的错误。我不知道为什么。

我是否以错误的方式来标记测试数据?我做错了什么?

最佳答案

对于几乎所有机器学习算法,训练数据和测试数据都需要具有相同的格式。这意味着,两者必须具有相同的功能,即 weka 中的属性,格式相同,包括类。

问题可能是您独立地预处理训练集和测试集,并且 StrintToWordVectorFilter 将为每个集创建不同的特征。因此,在训练集上训练的模型与测试集不兼容。

您想要做的是初始化训练集上的过滤器,然后将其应用于训练集和测试集。

问题Weka: ReplaceMissingValues for a test file处理这个问题,但我会在这里重复相关部分:

Instances train = ...   // from somewhere
Instances test = ... // from somewhere
Filter filter = new StringToWordVector(); // could be any filter
filter.setInputFormat(train); // initializing the filter once with training set
Instances newTrain = Filter.useFilter(train, filter); // configures the Filter based on train instances and returns filtered instances
Instances newTest = Filter.useFilter(test, filter); // create new test set

现在,您可以训练 SVM 并将生成的模型应用于测试数据。

如果训练和测试必须在单独的运行或程序中进行,则应该可以 serialize初始化的过滤器和模型。当您加载(反序列化)模型时,您还可以加载过滤器并将其应用于测试数据。他们现在应该兼容了。

关于machine-learning - 使用 Weka 预测测试数据集中的文本数据标签?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15439157/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com