gpt4 book ai didi

machine-learning - SVM light 的训练和测试文件

转载 作者:行者123 更新时间:2023-11-30 09:38:25 25 4
gpt4 key购买 nike

我正在尝试使用 SVM 来解决文本分类问题。我发现了一个名为 SVM light 的 SVM 实现及其衍生的 SVM multiclass(用于超过 2 类的分类问题)。但是我真的无法理解用于训练和测试分类器的文件的格式。我知道我需要创建一个特征向量(让我们假设我将文档中的每个单词作为一个特征),然后对于每个文档,我必须指定它的类、它包含的特征(实际上是特征的索引)特征向量)和特征值来创建训练文件。我对这个“特征值”感到困惑。它可能是什么?是本文档中该功能的计数吗?或者是别的什么?该网站包含的示例训练文件没有整数作为特征值,这表明它不是形成特征值的频率

我还想知道是否有一些工具/软件可以从一个简单的文档创建这个火车文件。我一般使用 Java;所以 Java 中的一些包来做到这一点对我来说也足够了。我尝试在 Google 上搜索,但找不到任何相关内容。

我还想知道是否还有其他更好的方法来使用 SVM 进行文本分类。

在这方面的任何帮助将不胜感激。

最佳答案

可以使用简单的二进制特征(该单词是否出现?),或简单的计数。但是您可能希望通过计数的对数来缩放简单计数(更频繁的单词更重要,但出现 10 倍的单词并不比出现一次的单词重要 10 倍)。

此外,您还可以通过考虑单词在所有文档中出现的频率等来权衡计数(即使单词 the 在文档中出现频率很高,但它并没有真正说明太多该文档,因为它通常非常频繁)。看看tf-idf .

SVM 是正确的选择吗?我想说,找到正确的特征比精确的算法更重要,尤其是在早期阶段。

关于machine-learning - SVM light 的训练和测试文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18042230/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com