gpt4 book ai didi

java - weka中的字符串数组属性

转载 作者:行者123 更新时间:2023-12-02 03:22:54 25 4
gpt4 key购买 nike

我需要一个 weka 训练文件(arff)来拥有一个名称(字符串)和一个与该名称关联的字符串数组,这样当我在任何文本上运行分类器时,分类器就会将该名称与这些字符串相关联。对于此任务,如何在 weka 中创建一个字符串数组的属性?或者有没有其他方法可以做到这一点?

(我正在使用朴素贝叶斯分类器)

例如:Deepika Shah,贪婪的读者,有趣,漂亮

因此,如果我有一个句子包含上面给出的迪皮卡·沙阿 (Deepika Shah) 的任何字符串,它应该将该句子分类为关于迪皮卡·沙阿 (Deepika Shah)。

编辑:我需要使用句子中的单词和短语将句子分类为与名称有关的句子。因此,我给出了一组与名称关联的字符串以及它们关联的名称。分类器应该从句子中找到类别。或者,在我从句子中提取特征之后(假设我已经提取了特征)。

最佳答案

您的 arff 文件需要采用以下格式:

@Relation testRelation

@attribute firstAtr string
@attribute secondAtr string
@attribute thirdAtr string
@attribute yourClass {Deepika Shah, secondClass, ...other classes listed here}

@data
"Voracious reader","funny"," pretty",Deepika Shah

...more data here

然后你就可以在weka中导入你的arff文件了。

现在您需要将字符串值转换为数字。为此,您必须使用位于预处理选项卡的“过滤器”部分中的 weka->unsupervised->attribute->StringToWordVector 过滤器。您可以单击过滤器来调整参数,例如术语表示(tf、tf-idf)、停用词、词干分析器算法、n-gram 等。然后单击“应用”。

此过程完成后,您就可以进入分类选项卡并继续分类。您可以选择分类器,然后就可以开始了。

注意:您需要选择名义类(Nom)yourClass(位于测试选项下)才能单击开始按钮。

注意2:如果你的刺属性是固定值,如有趣,悲伤,中性等,你可以使用名义属性而不是字符串

<小时/>

p.s 包含上述所有内容的一个很好的例子可以在这里找到:https://www.youtube.com/watch?v=jSZ9jQy1sfE

关于java - weka中的字符串数组属性,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39386554/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com