- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
目标:预测原始数据的标签
背景:我构建了一个 SVM 分类器
我正在使用以下代码:
0) 导入模块
import numpy as np
from sklearn import cross_validation
from sklearn import datasets
from sklearn import svm
from sklearn.model_selection import StratifiedKFold
from sklearn.metrics import precision_score, recall_score,accuracy_score
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics import precision_recall_fscore_support
1) X_list
和 y
type(X_list) #list, strings
len(X_list) #2163
type(y) #numpy.ndarray
len(y) #2163
2) 将X_list
从字符串转换为 float ,使用tfidf
tfidf = TfidfVectorizer()
X_vec = tfidf.fit_transform(X_list)
X = X_vec.toarray()
3) X
形状
X.shape (2163, 8753)
4) 10折验证和SVM
skf = StratifiedKFold(n_splits=10)
clf = svm.SVC(kernel='linear', C=1)
5) 循环10次
precision_scores = []
recall_scores = []
f_scores = []
for train_index, test_index in skf.split(X, y):
X_train = X[train_index]
X_test = X[test_index]
y_train = y[train_index]
y_test = y[test_index]
clf.fit(X_train, y_train)
y_pred = clf.predict(X_test)
precision_scores.append(scores[0])
recall_scores.append(scores[1])
f_scores.append(scores[2])
6) 根据原始数据集X_original
type(X_original) #list, strings
len(X_original) #2163
7) 将X_original
从字符串转换为 float
tfidf = TfidfVectorizer()
X_original_transform = tfidf.transform(X_original)
但是当我这样做时,我收到以下错误
`NotFittedError: TfidfVectorizer - Vocabulary wasn't fitted.`
SO有一个类似的问题,但它似乎与我的问题不同NotFittedError: TfidfVectorizer - Vocabulary wasn't fitted
8) 如何修复此错误?
最佳答案
在上面的第(7)点中,您可以看到您正在再次初始化tfidf
,这会生成一个没有任何数据或信息的新TfidfVectorizer实例。那你就不适合了。因此出现了错误。您需要以与第 (2) 点相同的方式调用 fit()。
将第 (7) 点更改为:
tfidf = TfidfVectorizer()
# fit_transform should be used here.
X_original_transform = tfidf.fit_transform(X_original)
同样在第 (2) 点中,您首先在整个数据集上拟合 TfidfVectorizer,然后将其拆分为训练和测试。不建议这样做,因为它会在训练时将有关数据的信息泄露给模型。考虑一下这在现实世界中是如何运作的。您是否掌握了要提前预测的数据的所有信息?不会。您可以根据可用数据训练模型,并将其用于未见过的数据。您当前在第 (2) 点中的代码打破了这一点。
始终首先分为训练和测试,然后仅对训练数据进行训练 (fit()
),并使用该信息对测试数据应用 (transform()
) .
像这样改变它:
1) 首先删除第(2)点中的代码。我们将在折叠迭代中执行此操作。
2)更改点(5),例如:
for train_index, test_index in skf.split(X_list, y):
X_train = X_list[train_index]
X_test = X_list[test_index]
y_train = y[train_index]
y_test = y[test_index]
tfidf = TfidfVectorizer()
# This is what I'm talking about
X_train = tfidf.fit_transform(X_train)
clf.fit(X_train, y_train)
# Only call transform() here
X_test = tfidf.transform(X_test)
y_pred = clf.predict(X_test)
precision_scores.append(scores[0])
recall_scores.append(scores[1])
f_scores.append(scores[2])
关于python-3.x - 未安装错误: TfidfVectorizer - Vocabulary wasn't fitted python,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49034284/
我听说最好不要从您系统的 Perl 版本所在的 CPAN 安装模块。我知道如何使用命令行安装模块,我只是想知道是否有办法将 CPAN 与系统核心 Perl 分开。 我应该: 下载源代码并专门为这些模块
我听说最好不要从系统的 Perl 版本所在的 CPAN 安装模块。我知道如何使用命令行安装模块,我只是想知道是否有办法将 CPAN 与系统的核心 Perl 分开。 我应该: 下载源代码并专门为这些模块
单独安装 electron 与通过 electron-builder 安装有什么区别?我正在使用 React 构建一个 Electron 应用程序,并且已经找到了一些教程。它们安装 Electron
两者安装有什么区别?我按照安装页面上的说明在全局范围内安装了 webpack,然后我转到了入门指南,据说在那里可以在本地安装 webpack-cli。 CLI = Command Line Inter
我在 OS X Yosemite 上用 PHP 安装了默认的 Apache 服务器,安装了 pear,用 brew 安装了 Solr (brew install solr),现在我正在尝试使用 PEC
我解压并编译了 Ruby 2.1 并安装了几个支持工具。 但是当我安装了 libssl-dev 时,OpenSSL 不会安装。 我在支持 openssl 时遇到这个错误: make: *** No r
我在 android studio 2.3.1 和 gradle 3.2 中设计了 2 到 3 个应用程序。当我从它运行应用程序到任何设备或模拟器时,一切都工作正常。但是当我从构建文件夹中获取该 ap
我注意到我正在读一本书提到通过 apt-get 安装 numpy 和 opencv apt-get install python-numpy python-opencv 但我可以通过以下方式在 pip
我正在尝试在 Windows 8.1 上安装 ansicon。我提取了文件并达到了我需要调用 ansicon -i 的级别。当我在 cmd 中输入此内容并运行 python 脚本时效果很好,但是当我通
我有 linux MINT 17.3 Kernel 4.4.0-81 所有更新可用。 (由于不同的原因,我无法迁移到更新版本的 ubuntu/mint) 我已经通过 PPA 安装了 FFMPEG(不是
尝试在本地运行我的应用程序时出现错误: 我只在 chrome 浏览器中收到此错误。我尝试过不同的东西,但我不确定为什么它是 Chrome 特定的。 最佳答案 我怀疑这不是 Firebase 问题,而是
这是我第一次开发 AngularJS 应用程序并使用脚手架工具 Yeoman ( http://yeoman.io/ )。我想对我的一些图标使用 fontawesome ( http://fortaw
我知道您通常“应该”$ pip install 如果包没有 brew ,但如果有一个你想安装的 python 包,你可以使用 $ pip install或 $ brew install为了?例如,通过
我正在尝试通过 RVM 安装 Ruby 1.9.3。然而,当谈到安装 RubyGems 时,我得到了这个: curl: (22) The requested URL returned error: 4
我是真正提出问题的新手,但你去吧。 我一直在尝试按照安装指南添加 dnsname: https://github.com/containers/dnsname https://github.com/c
Studio更新至0.4.0 建筑产量为“需要1.8版Gradle”;将设置设置为1.8 bin目录; 建立 “要求1.9级”;将设置设置为1.9 bin; 建立 “要求1.8级” 啊。不知道该怎么做
我刚刚注意到 kernel.org 因维护而停机。是否有使用不同镜子的不同公式?或者我可以向 Homebrew 软件添加不同的来源(如 bundler ?)? 谢谢你的帮助! 最佳答案 快速解决方法:
当我运行时: peardev install phpunit/PHPUnit 我得到以下信息: No releases available for package "pear.phpunit.de/P
服务器操作系统为Fedora 24. 64bit。 我想安装 Git 2.6.6。 所以下载源码并安装。 此服务器离线。所以我不使用“yum”。 ./configure --prefix=/usr/l
我正在尝试在我自己的服务器(操作系统:Linux Ubuntu Server 12.04)上安装 OpenEdX,但我遇到了同样的错误。谁能帮帮我? TASK: [ insights | insta
我是一名优秀的程序员,十分优秀!