python - 多类 SVM 无法使用 20 个新闻组数据集-6ren

python - 多类 SVM 无法使用 20 个新闻组数据集

转载作者：太空宇宙更新时间：2023-11-03 21:25:10

25

4

我正在尝试使用 Mblondel Multiclass SVM 中的多类 SVM 代码，我读了他的论文，他使用了来自 sklearn 20newsgroup 的数据集，但是当我尝试使用它时，代码无法正常工作。

我尝试更改代码以匹配 20newsgroup 数据集。但我陷入了这个错误..

Traceback (most recent call last):

File "F:\env\chatbotstripped\CSSVM.py", line 157, in

clf.fit(X, y)

File "F:\env\chatbotstripped\CSSVM.py", line 106, in fit

v = self._violation(g, y, i)

File "F:\env\chatbotstripped\CSSVM.py", line 50, in _violation

elif k != y[i] and self.dual_coef_[k, i] >= 0:

IndexError: index 20 is out of bounds for axis 0 with size 20

这是主要代码:

from sklearn.datasets import fetch_20newsgroups
news_train = fetch_20newsgroups(subset='train')
X, y = news_train.data[:100], news_train.target[:100]

clf = MulticlassSVM(C=0.1, tol=0.01, max_iter=100, random_state=0, verbose=1)
X = TfidfVectorizer().fit_transform(X)
clf.fit(X, y)
print(clf.score(X, y))

这是合适的代码:

def fit(self, X, y):
    n_samples, n_features = X.shape

    self._label_encoder = LabelEncoder()
    y = self._label_encoder.fit_transform(y)

    n_classes = len(self._label_encoder.classes_)
    self.dual_coef_ = np.zeros((n_classes, n_samples), dtype=np.float64)
    self.coef_ = np.zeros((n_classes, n_features))

    norms = np.sqrt(np.sum(X.power(2), axis=1)) # i changed this code

    rs = check_random_state(self.random_state)
    ind = np.arange(n_samples)
    rs.shuffle(ind)

    # i added this sparse
    sparse = sp.isspmatrix(X)
    if sparse:
        X = np.asarray(X.data, dtype=np.float64, order='C')

    for it in range(self.max_iter):
        violation_sum = 0
        for ii in range(n_samples):
            i = ind[ii]
        
            if norms[i] == 0:
                continue
        
            g = self._partial_gradient(X, y, i)
            v = self._violation(g, y, i)
            violation_sum += v
         
            if v < 1e-12:
                continue

            delta = self._solve_subproblem(g, y, norms, i)
            self.coef_ += (delta * X[i][:, np.newaxis]).T
            self.dual_coef_[:, i] += delta

        if it == 0:
            violation_init = violation_sum

        vratio = violation_sum / violation_init

        if self.verbose >= 1:
            print("iter", it + 1, "violation", vratio)

        if vratio < self.tol:
            if self.verbose >= 1:
                print("Converged")
            break
    return self

和_违规代码:

def _violation(self, g, y, i):
    smallest = np.inf
    for k in range(g.shape[0]):
        if k == y[i] and self.dual_coef_[k, i] >= self.C:
            continue
        elif k != y[i] and self.dual_coef_[k, i] >= 0:
            continue

        smallest = min(smallest, g[k].all()) # and i added .all()
    return g.max() - smallest

我知道索引有问题，我不知道如何修复它，而且我不想破坏代码，因为我真的不明白这段代码是如何工作的。

最佳答案

您必须将 tfidf 矢量器的稀疏矩阵输出转换为密集矩阵，然后将其作为二维数组。试试这个!

from sklearn.datasets import fetch_20newsgroups
from sklearn.feature_extraction.text import TfidfVectorizer
news_train = fetch_20newsgroups(subset='train')
text, y = news_train.data[:1000], news_train.target[:1000]

clf = MulticlassSVM(C=0.1, tol=0.01, max_iter=100, random_state=0, verbose=1)
vectorizer= TfidfVectorizer(min_df=20,stop_words='english')
X = np.asarray(vectorizer.fit_transform(text).todense())
clf.fit(X, y)
print(clf.score(X, y))

输出:

iter 1 violation 1.0
iter 2 violation 0.07075102408683964
iter 3 violation 0.018288133735158228
iter 4 violation 0.009149083942255389
Converged
0.953

关于python - 多类 SVM 无法使用 20 个新闻组数据集，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/53895434/

25

4

0

文章推荐： c# - MigraDoc 将图像从流添加到表格

文章推荐： jquery - 如何在 Javascript/Jquery 中更改此 css 伪按钮

文章推荐： c# - 我如何知道 propertyInfo 是否属于 C# 中的 IList 类型？

svm - 您如何处理 SVM 中的数据不平衡？
如果我在 lrge 训练集上训练 SVM，并且类变量是 True 或 False，那么与训练集中的 False 值数量相比，True 值很少会影响训练模型/结果吗？他们应该平等吗？如果我的训练集的 T
svm - 一类 SVM libSVM
假设我的特征向量是 (x1, x2, ...xn) 谁能给我一个代码来使用 libSVM 训练一类 SVM？我应该如何使用交叉验证来学习参数。最佳答案这可能会帮助你 label=ones(Num
svm - 计算 SVM 的边距和偏差
我提前为这个问题的新颖性道歉，但我被卡住了。我正在尝试解决这个问题，我可以做第 i)-1v) 部分，但我卡在了 v 上。我知道计算余量 y，你可以 y=2/||W|| 而且我知道W是超平面的法线，只
R - Hadoop - rmr2 - SVM 模型 - 将结果 "list"类转换为原始类 "svm.formula" "svm"
我有以下 R 配置: 操作系统:LinuxR 版本 3.0.1 (2013-05-16)rmr2 版本 2.2.1rhdfs 版本 1.0.6hadoop 版本 1.2.0 如何使用带 rmr2 包的
svm - 训练 SVM 分类器(词嵌入与句子嵌入)
我想尝试不同的嵌入，例如 Word2Vec、ELMo 和 BERT，但我有点困惑是使用词嵌入还是句子嵌入，以及为什么。我将嵌入用作 SVM 分类器的特征输入。谢谢。最佳答案虽然这两种方法都可以证
svm - 如何使用 SVM 和 KNN 对文本文档进行分类
几乎所有的例子都是基于数字的。在文本文档中，我有文字而不是数字。那么你能告诉我如何使用这些算法进行文本文档分类的简单示例吗？我不需要代码示例，只需要逻辑伪代码将有很大帮助最佳答案常用的方法是
svm - 需要 SVM 实现或 Java 库
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以便用事实和引用来回答。关闭 3 年前。
svm - 如何使用 mfcc 功能训练 svm 分类器进行语音识别？
我目前正处于语音识别的讨论阶段项目，我使用MFCC特征提取，但是从函数返回的MFCC特征是一个矩阵，例如每个语音文件(wav)的(20,38)特征矩阵。但是我如何将此功能传递给 SVM 分类器。对于
svm - 使用 SIFT 特征训练 SVM 分类器
请我喜欢用 SIFT DESCRIPTOR 和 SVM 将一组图像分类为 4 类。现在，使用 SIFT 提取器，我得到了不同大小的关键点，例如 img1 有 100 个关键点，img2 有 55 个关
machine-learning - 一类 SVM 概率估计以及一类 SVM 与聚类有何不同
我有一组图像。我想学习一类支持向量机(OC-SVM)来模拟特定类(正)的分布，因为我没有足够的例子来代表其他类(负)。我对 OC-SVM 的理解是，它试图将数据与源分离，换句话说，它试图学习一个超球体
python - SVM 实现，scikit 学习减少运行时间，最快的 svm
我正在使用 scikit-learn 使用 SVM 构建一些预测模型。我有一个包含大约 5000 个示例和大约 700 个特征的数据集。我在我的训练集上使用 18x17 网格搜索进行 5 折交叉验证，
machine-learning - 在扩展特征空间中，核 SVM 与线性 SVM 相比有哪些缺点？
这是我考试时提出的问题。我给出了以下答案，我的得分是0分。教授甚至不同意给予任何部分的认可，也没有告诉我我的答案有什么问题。谁能帮我找出我的答案有什么问题吗？这是我在考试中给出的答案。缺点是:1)
r - 调整 R 中的 svm 参数(线性 SVM 内核)
tune.svm() 和 best.svm() 有什么区别。当我们调整 svm 内核的参数时，我们不希望总是为我们的模型选择最佳值。请原谅，因为我是 R 和机器学习的新手。我注意到在调整 svm
OpenCV + HOG +SVM : help needed with SVM single feature vector
我尝试使用 OpenCV2.3 实现基于 SVM 和 HOG 的人员检测系统。但是我卡住了。我走到这一步:我可以从图像数据库计算 HOG 值，然后我用 LIBSVM 计算 SVM 向量，所以我得到例
hadoop - 最近 SVM 实现被添加到 Mahout 中，我打算使用 SVM。有人尝试过吗？
Mahout(机器)中围绕 SVM(支持向量机)的任何新发展Learning With Hadoop) 使用 Hadoop？最近 SVM 实现被添加到 Mahout 中。我打算使用 SVM。有人尝试过
python - 为什么sklearn.svm.SVC.predict()和sklearn.svm.SVC.predict_proba()的结果不一致？
我使用 sklearn.svm.SVC 构建支持向量分类器，如下所示。 import numpy as np from sklearn.svm import SVC svc=SVC(proba
scikit-learn - 如何用 epochs 训练 sklearn svm 模型(sklearn.svm.SVC)？
我想看看模型是否收敛于我的交叉验证。我如何增加或减少 sklearn.svm.SVC 中的时代？目前: SVM_Model = SVC(gamma='auto') SVM_Model.fit(X_t
machine-learning - 为什么 1-范数 SVM 比 2-范数 SVM 更稀疏？
与在 SVM 的相同成本函数中使用 2-范数权重相比，我们如何通过在成本函数中使用 1-范数权重来提高稀疏性。对于 1-范数:成本函数 - 最小化 ||w||_1 对于 2-范数:成本函数 - 最小
c++ - 使用 cpp 程序中的 svm-train.c 和 svm-predict.c
事实上，我不是一个经验丰富的 C++ 程序员，我是一个 C# 程序员，正如你所知道的，它有很大的不同，根据我的机器学习经验，我只使用了 matlab，所以如果我有一些，请原谅概念错误。我正在尝试在
opencv - 使用 svm load 加载保存的文件时，在 openCV 中使用 svm predict 函数时出错
我正在尝试使用 OpenCV 中的 SVM 加载函数加载 .xml 文件，然后使用预测函数对交通标志进行分类。当到达预测函数的执行时抛出错误: Unhandled exception at 0x000

首页

博学

6Ren·AI

商城

python - 多类 SVM 无法使用 20 个新闻组数据集