python-3.x - 未安装错误: TfidfVectorizer - Vocabulary wasn't fitted python-6ren

python-3.x - 未安装错误: TfidfVectorizer - Vocabulary wasn't fitted python

转载作者：行者123 更新时间：2023-11-30 09:18:33

26

4

目标:预测原始数据的标签

背景:我构建了一个 SVM 分类器

我正在使用以下代码:

0) 导入模块

    import numpy as np
    from sklearn import cross_validation
    from sklearn import datasets
    from sklearn import svm
    from sklearn.model_selection import StratifiedKFold
    from sklearn.metrics import precision_score, recall_score,accuracy_score
    from sklearn.feature_extraction.text import TfidfVectorizer
    from sklearn.metrics import precision_recall_fscore_support

1) X_list 和 y

type(X_list) #list, strings
len(X_list)  #2163
type(y) #numpy.ndarray
len(y)  #2163

2) 将X_list从字符串转换为 float ，使用tfidf

tfidf = TfidfVectorizer()
X_vec = tfidf.fit_transform(X_list) 
X = X_vec.toarray()

3) X 形状

X.shape  (2163, 8753)

4) 10折验证和SVM

skf = StratifiedKFold(n_splits=10) 
clf = svm.SVC(kernel='linear', C=1)

5) 循环10次

precision_scores = []
recall_scores = []
f_scores = [] 

for train_index, test_index in skf.split(X, y): 
    X_train = X[train_index]
    X_test =  X[test_index]
    y_train = y[train_index]
    y_test =  y[test_index]

    clf.fit(X_train, y_train) 
    y_pred = clf.predict(X_test)

    precision_scores.append(scores[0])
    recall_scores.append(scores[1])
    f_scores.append(scores[2])

6) 根据原始数据集X_original

进行预测

type(X_original) #list, strings
len(X_original)  #2163

7) 将X_original从字符串转换为 float

tfidf = TfidfVectorizer()
X_original_transform = tfidf.transform(X_original)

但是当我这样做时，我收到以下错误

`NotFittedError: TfidfVectorizer - Vocabulary wasn't fitted.`

SO有一个类似的问题，但它似乎与我的问题不同NotFittedError: TfidfVectorizer - Vocabulary wasn't fitted

8) 如何修复此错误？

最佳答案

在上面的第(7)点中，您可以看到您正在再次初始化tfidf，这会生成一个没有任何数据或信息的新TfidfVectorizer实例。那你就不适合了。因此出现了错误。您需要以与第 (2) 点相同的方式调用 fit()。

将第 (7) 点更改为:

tfidf = TfidfVectorizer()
# fit_transform should be used here.
X_original_transform = tfidf.fit_transform(X_original)

同样在第 (2) 点中，您首先在整个数据集上拟合 TfidfVectorizer，然后将其拆分为训练和测试。不建议这样做，因为它会在训练时将有关数据的信息泄露给模型。考虑一下这在现实世界中是如何运作的。您是否掌握了要提前预测的数据的所有信息？不会。您可以根据可用数据训练模型，并将其用于未见过的数据。您当前在第 (2) 点中的代码打破了这一点。

始终首先分为训练和测试，然后仅对训练数据进行训练 (fit())，并使用该信息对测试数据应用 (transform()) .

像这样改变它:

1) 首先删除第(2)点中的代码。我们将在折叠迭代中执行此操作。

2)更改点(5)，例如:

for train_index, test_index in skf.split(X_list, y): 
    X_train = X_list[train_index]
    X_test =  X_list[test_index]
    y_train = y[train_index]
    y_test =  y[test_index]

    tfidf = TfidfVectorizer()

    # This is what I'm talking about
    X_train = tfidf.fit_transform(X_train) 
    clf.fit(X_train, y_train) 

    # Only call transform() here
    X_test = tfidf.transform(X_test) 
    y_pred = clf.predict(X_test)

    precision_scores.append(scores[0])
    recall_scores.append(scores[1])
    f_scores.append(scores[2])

关于python-3.x - 未安装错误: TfidfVectorizer - Vocabulary wasn't fitted python，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/49034284/

26

4

0

文章推荐： javascript - 使用 Vue.js 更改元标题和描述

文章推荐： python - Tensorflow在不同variable_scope下共享变量

文章推荐： machine-learning - 回归模型比较

文章推荐： javascript - React Eslint 解构赋值

linux - 安装 CPAN 模块而不弄乱系统 Perl 安装
我听说最好不要从您系统的 Perl 版本所在的 CPAN 安装模块。我知道如何使用命令行安装模块，我只是想知道是否有办法将 CPAN 与系统核心 Perl 分开。我应该: 下载源代码并专门为这些模块
linux - 安装 CPAN 模块而不打乱系统 Perl 安装
我听说最好不要从系统的 Perl 版本所在的 CPAN 安装模块。我知道如何使用命令行安装模块，我只是想知道是否有办法将 CPAN 与系统的核心 Perl 分开。我应该: 下载源代码并专门为这些模块
javascript - 安装 electron vs 安装 electron-builder
单独安装 electron 与通过 electron-builder 安装有什么区别？我正在使用 React 构建一个 Electron 应用程序，并且已经找到了一些教程。它们安装 Electron
javascript - 安装 webpack VS 安装 webpack-cli？
两者安装有什么区别？我按照安装页面上的说明在全局范围内安装了 webpack，然后我转到了入门指南，据说在那里可以在本地安装 webpack-cli。 CLI = Command Line Inter
php - OS X 安装 libcurl/Solr 安装
我在 OS X Yosemite 上用 PHP 安装了默认的 Apache 服务器，安装了 pear，用 brew 安装了 Solr (brew install solr)，现在我正在尝试使用 PEC
ruby - 安装 OpenSSL Support 用于自编译的 Ruby 安装
我解压并编译了 Ruby 2.1 并安装了几个支持工具。但是当我安装了 libssl-dev 时，OpenSSL 不会安装。我在支持 openssl 时遇到这个错误: make: *** No r
android - 应用程序未使用 apk 安装，但通过 android studio 安装
我在 android studio 2.3.1 和 gradle 3.2 中设计了 2 到 3 个应用程序。当我从它运行应用程序到任何设备或模拟器时，一切都工作正常。但是当我从构建文件夹中获取该 ap
python - apt-get 安装 python 文件还是 pip 安装？
我注意到我正在读一本书提到通过 apt-get 安装 numpy 和 opencv apt-get install python-numpy python-opencv 但我可以通过以下方式在 pip
python - Ansicon 不能从 python 安装，只能从 cmd 安装
我正在尝试在 Windows 8.1 上安装 ansicon。我提取了文件并达到了我需要调用 ansicon -i 的级别。当我在 cmd 中输入此内容并运行 python 脚本时效果很好，但是当我通
通过 PPA 安装 FFMPEG 后 FFMPEG 安装/启用 'libfdk_aac'
我有 linux MINT 17.3 Kernel 4.4.0-81 所有更新可用。 (由于不同的原因，我无法迁移到更新版本的 ubuntu/mint) 我已经通过 PPA 安装了 FFMPEG(不是
firebase - 安装 : Could not process request. 应用程序脱机。 (安装/应用程序离线)Firebase 错误
尝试在本地运行我的应用程序时出现错误: 我只在 chrome 浏览器中收到此错误。我尝试过不同的东西，但我不确定为什么它是 Chrome 特定的。最佳答案我怀疑这不是 Firebase 问题，而是
angularjs - Yeoman Bower 安装 vs npm 安装 vs grunt
这是我第一次开发 AngularJS 应用程序并使用脚手架工具 Yeoman ( http://yeoman.io/ )。我想对我的一些图标使用 fontawesome ( http://fortaw
python - 为什么 brew 安装 python 包而不是 pip 安装(反之亦然)？
我知道您通常“应该”$ pip install 如果包没有 brew ，但如果有一个你想安装的 python 包，你可以使用 $ pip install或 $ brew install为了？例如，通过
ruby - 使用 RVM 安装 Ruby 时出错(安装 RubyGems 失败)
我正在尝试通过 RVM 安装 Ruby 1.9.3。然而，当谈到安装 RubyGems 时，我得到了这个: curl: (22) The requested URL returned error: 4
ubuntu - 安装 Podman DNSname - 安装 : cannot stat 'bin/dnsname' : No such file or directory
我是真正提出问题的新手，但你去吧。我一直在尝试按照安装指南添加 dnsname: https://github.com/containers/dnsname https://github.com/c
android - 需要Gradle 1.8版；安装;必须使用Gradle 1.9版；安装;重复
Studio更新至0.4.0 建筑产量为“需要1.8版Gradle”；将设置设置为1.8 bin目录；建立 “要求1.9级”；将设置设置为1.9 bin; 建立 “要求1.8级” 啊。不知道该怎么做
git - 安装 git 的替代源。 brew 安装 git； kernel.org 停机维护
我刚刚注意到 kernel.org 因维护而停机。是否有使用不同镜子的不同公式？或者我可以向 Homebrew 软件添加不同的来源(如 bundler ？)？谢谢你的帮助! 最佳答案快速解决方法:
php - Windows 通过 PEAR 安装 PHPUnit - 通过 PEAR 安装 PHPUnit
当我运行时: peardev install phpunit/PHPUnit 我得到以下信息: No releases available for package "pear.phpunit.de/P
linux - Fedora 24(64 位)Git 安装(perl-devel、ParseXs 安装)
服务器操作系统为Fedora 24. 64bit。我想安装 Git 2.6.6。所以下载源码并安装。此服务器离线。所以我不使用“yum”。 ./configure --prefix=/usr/l
linux - 安装 insights 时出错(安装 bower){ OpenEdX，Ubuntu Server 12.04 }
我正在尝试在我自己的服务器(操作系统:Linux Ubuntu Server 12.04)上安装 OpenEdX，但我遇到了同样的错误。谁能帮帮我？ TASK: [ insights | insta

首页

博学

6Ren·AI

商城

python-3.x - 未安装错误: TfidfVectorizer - Vocabulary wasn't fitted python