- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在使用 Python 中 scikit-learn 库中的 KNeighborsClassifier 算法。我遵循基本说明,例如将我的数据和标签拆分为训练和测试数据,然后根据训练数据训练我的模型。现在我试图预测测试数据的准确性,但出现错误。这是我的代码:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.cross_validation import train_test_split
from sklearn.metrics import accuracy_score
data_train, data_test, label_train, label_test = train_test_split(df, labels,
test_size=0.2,
random_state=7)
mod = KNeighborsClassifier(n_neighbors=4)
mod.fit(data_train, label_train)
predictions = mod.predict(data_test)
print accuracy_score(label_train, predictions)
我得到的错误:
ValueError: Found arrays with inconsistent numbers of samples: [140 558]
140是训练数据部分,558是基于test_size=0.2的测试数据(我的数据集是698个样本)。我验证了标签和数据集的大小相同 698。但是,我收到此错误,这基本上是在尝试比较测试数据和训练数据集。
有谁知道这里出了什么问题吗?我应该使用什么来训练我的模型以及我应该使用什么来预测分数?
谢谢!
最佳答案
您应该使用 label_test
而不是 label_train
来计算 accuracy_score
。您想要将测试集 label_test
的实际标签与测试集的模型预测 predictions
进行比较。
关于python - KNeighborsClassifier .predict() 函数不起作用,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39811270/
我有一个特征集 Xtrain,维度为 (n_obs,n_features),响应 ytrain 为 dim (n_obs)。我正在尝试使用 KNN 作为分类器。 from sklearn.neighb
对于分类算法KNeighborsClassifier,稀疏输入的拟合意味着什么? 这是否意味着如果我将 x_train 和 x_test 作为稀疏 csr 矩阵,并且如果我适合 x_train 并且不
我必须使用 Scikit Lean 的 KNeighborsClassifier 来使用 Python 中的用户定义函数来比较时间序列。 knn = KNeighborsClassifier(n_ne
我有一个关于 KNeighborsClassifier 的问题 这是我为 iris 数据集准备的代码。 iris = datasets.load_iris() X = iris.data # Inde
为什么 knn 总是预测相同的数字?我该如何解决这个问题? 数据集是 here . 代码: import numpy as np import pandas as pd # data processi
knn.score(X_test, y_test) 这里 X_test 是一个包含测试用例的 numpy 数组,y_test 包含它们的正确标签。 这是返回我为区分鸢尾花种类而制作的模型的可靠性分数的
在sklearn文档中,函数KNeighborsClassifier的参数weights="distance"解释如下: ‘distance’ : weight points by the inver
我正在使用 Python 中 scikit-learn 库中的 KNeighborsClassifier 算法。我遵循基本说明,例如将我的数据和标签拆分为训练和测试数据,然后根据训练数据训练我的模型。
我想绘制 K 最近邻分类器的学习曲线。我有以下代码: X_train = #training data Y_train = #target variables best_neighbors = #nu
我正在使用 KNeighborsClassifier 算法来训练我的数据,如下所示: knn_clf = neighbors.KNeighborsClassifier(n_neighbors=3, a
我正在尝试为 KNeighborsClassifier 找到最佳的 K 值。 这是我的 iris 数据集代码: k_loop = np.arange(1,30) k_scores = [] for k
我正在尝试从一组带有标签的样本向量中搜索向量。我需要找到最佳的 n 匹配项。我为此使用 kNeighborsClassifier 。 nbrs = KNeighborsClassifier(n_nei
我有一个 KNeighborsClassifier,它根据 4 个属性对数据进行分类。我想手动对这 4 个属性进行加权,但总是遇到“操作数无法与形状 (1,5) (4) 一起广播”的情况。 关于 we
在 Jupyter 笔记本上本地运行并使用 MNIST 数据集(28k 条目,每个图像 28x28 像素,以下需要27 秒。 from sklearn.neighbors import KNeighb
我正在尝试在 sklearn 中构建 GridSearchCV 管道以使用 KNeighborsClassifier 和 SVM。到目前为止,已经尝试过以下代码: from sklearn.model
是否可以将 1 - 余弦相似度与 scikit learn 的 KNeighborsClassifier 一起使用? This回答说不,但是在 documentation 上对于 KNeighbors
我正在尝试在 Iris 数据集上使用 KNN 作为机器学习的“Hello World”。我正在使用 Anaconda 的 Jupyter Notebook,并且已经清楚地记录了每个步骤。当我尝试使用
如何使用 KNeighborsClassifier 算法绘制多条 ROC 曲线?我想绘制不同 k 的 ROC 曲线。 这就是我所拥有的,但它会绘制不同的图形,我想将它们全部组合起来 k_range =
我正在尝试在 mnist dataset 上实现最近邻分类器. 我尝试通过与 Scipy KNeighborsClassifier 进行比较来检查我的结果 为了进行验证,我使用训练集中的前 6 个样本
我正在尝试使用机器学习来猜测一个人的收入是否超过或低于 50k,使用 this数据集。我认为该代码不起作用,因为数据集包含字符串。当我使用包含 4 个而不是 14 个变量(并且带有数字)的较短数据集时
我是一名优秀的程序员,十分优秀!