- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我正在使用不同的机器学习算法实现不同的分类器。
我正在对文本文件进行排序,操作如下:
classifier = Pipeline([
('vectorizer', CountVectorizer ()),
('TFIDF', TfidfTransformer ()),
('clf', OneVsRestClassifier (GaussianNB()))])
classifier.fit(X_train,Y)
predicted = classifier.predict(X_test)
当我使用 GaussianNB 算法时,出现以下错误:
TypeError: A sparse matrix was passed, but dense data is required. Use X.toarray () to convert to a dense numpy array.
我看到了以下帖子 here
在这篇文章中,创建了一个类来执行数据转换。可以使用 TfidfTransformer 调整我的代码。我该如何解决这个问题?
最佳答案
您可以执行以下操作:
class DenseTransformer(TransformerMixin):
def transform(self, X, y=None, **fit_params):
return X.todense()
def fit_transform(self, X, y=None, **fit_params):
self.fit(X, y, **fit_params)
return self.transform(X)
def fit(self, X, y=None, **fit_params):
return self
classifier = Pipeline([
('vectorizer', CountVectorizer ()),
('TFIDF', TfidfTransformer ()),
('to_dense', DenseTransformer()),
('clf', OneVsRestClassifier (GaussianNB()))])
classifier.fit(X_train,Y)
predicted = classifier.predict(X_test)
现在,作为管道的一部分,数据将转换为密集表示。
顺便说一句,我不知道你的限制,但也许你可以使用另一个分类器,比如 RandomForestClassifier或 SVM接受稀疏表示中的数据。
关于python - Scikit-learn 的 Pipeline : Error with multilabel classification. 传递了一个稀疏矩阵,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31228303/
我正在尝试在 Keras 中使用 CNN 执行多类多标签分类。我试图基于 this function 创建一个单独的标签精度函数来自类似的问题 我尝试过的相关代码是: labels = ["dog",
假设我有一个具有已定义ID的决策基节点:。我已经在Decision.id上定义了唯一索引。。此外,我还有两个从Decision派生的节点:。让我们考虑这样一个场景:我的数据库中有1000个配置文件和1
Let's say I have a Decision base node with a defined ID:假设我有一个具有已定义ID的决策基节点: @NodeEntitypublic c
我将 Keras 与 scikit-learn 包装器一起使用。特别是,我想使用 GridSearchCV 进行超参数优化。 这是一个多类问题,即目标变量只能在一组 n 个类上选择一个标签。例如,目标
我正在尝试确定 KNN 和随机森林之间的预测模型的准确度分数,但 precision_score 方法给出了主题行中给出的错误。我的代码如下: from sklearn.neighbors impor
我正在使用不同的机器学习算法实现不同的分类器。 我正在对文本文件进行排序,操作如下: classifier = Pipeline([ ('vectorizer', CountVectorizer ()
我正在尝试使用 sci-kit learn 0.17 进行多标签分类我的数据看起来像 训练 Col1 Col2 asd dfgfg [1,2,
在 tensorflow 中,我打算针对图像分类任务调整预训练的CNN中的超参数。为此,我使用了像vgg16这样的预训练模型来提取特征,并将提取的嵌入特征用作卷积神经网络(CNN)的输入。基本上,我将
我想应用KerasCLassifier来解决多类分类问题。 y 的值是 one-hot-encoded 的,例如: 0 1 0 1 0 0 1 0 0 这是我的代码: from keras.model
我使用了以下代码集:我需要检查 X_train 和 X_test 的准确性 以下代码适用于我的多标签类分类问题 import numpy as np from sklearn.pipeline imp
当我想获得预测准确性时出现此错误,我尝试了所有可能的方法和所有堆栈问题,但最终我无法解决错误... 有 bug 的代码片段是: author_pred1 = model1.predict([Three
我是机器学习的新手。 我正在尝试进行多标签文本分类。我具有这些文档的原始标签以及表示为一种热编码(19000文档x 200标签)的分类结果(使用的mlknn分类器)。现在,我正在尝试使用f1_scor
我有一个使用 train_test_split 在我的数据集上派生的训练集 y_train(有 8 个独特的类)。 y_train 2019 AD 777 QUER
我有一个使用 train_test_split 在我的数据集上派生的训练集 y_train(有 8 个独特的类)。 y_train 2019 AD 777 QUER
使用 Sklearn 分层 kfold 拆分,当我尝试使用多类拆分时,我收到错误消息(见下文)。当我尝试使用二进制进行拆分时,它没有问题。 num_classes = len(np.unique(y_
我是一名优秀的程序员,十分优秀!