gpt4 book ai didi

java - 如何在 weka 中表示用于分类的文本?

转载 作者:塔克拉玛干 更新时间:2023-11-03 03:42:19 27 4
gpt4 key购买 nike

能否请您告诉我如何在 weka 中表示文本分类的属性或类。我可以使用什么属性进行分类?单词频率还是单词? ARFF 格式的可能结构是什么?你能给我几行这种结构的例子吗?

非常感谢您。

最佳答案

最简单的替代方法之一是从 ARFF 文件开始解决二类问题,例如:

@relation corpus @attribute text string@attribute class {pos,neg}@data'long text with words ... ',pos

文本表示为 String 类型,类是具有两个值的标称值。

然后你可以应用两个过滤器:

  1. StringToWordVector 将文本转换为词 vector 表示。过滤器为每个词使用一个属性。您可以调整参数以选择二进制/频率表示、词干提取或停用词。最佳表示取决于问题。如果文本不长,通常二进制表示就足够了。
  2. Reorder 将类属性移动到最后一个位置,Weka 假定它在那里。

您可以在这个 Weka wiki 页面中找到更多信息和其他转换数据的方法: http://weka.wikispaces.com/Text+categorization+with+WEKA

关于java - 如何在 weka 中表示用于分类的文本?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8313426/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com