gpt4 book ai didi

machine-learning - 在 Weka 中处理字符串数据和分类

转载 作者:行者123 更新时间:2023-11-30 08:31:08 25 4
gpt4 key购买 nike

我有一个数据集,由一对字符串及其所属的类组成。该字符串是一个句子。该类(class)可以是“男性”或“女性”。一个例子 -

'嗨!我叫Jack,男

我使用它作为训练集,这样,给定一组不同的字符串,它就可以分类该语句是来自男性还是女性。我正在使用 WEKA 的 stringtowordvector 将字符串转换为包含该字符串中单词数的向量。使用生成的 arff 我希望它生成一个预测算法(决策树?),我可以在未分类的数据集上使用它。我该怎么办?我应该使用哪个分类器?还有哪些其他预处理技术在这种情况下会有所帮助?

最佳答案

也许 Weka 主页上的简单消息分类器示例( codewiki )是一个不错的起点,或者也许是Text Categorization Wiki

几乎任何线性分类器都是一个很好的起点。我建议 Logistic RegressionSupport Vector Machines作为一个很好的起点。

关于machine-learning - 在 Weka 中处理字符串数据和分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15239913/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com