- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我正在使用 RandomizedSearchCV
(sklearn) 对我的训练集进行 3 折交叉验证来进行超参数调整。之后,我在测试集上检查我的分数(准确性、召回加权、cohen_kappa)。令人惊讶的是,它总是比我的 RandomizedSearchCV
的 best_score 属性高一点。
一开始,我将分层数据拆分为 70/30 的训练和测试集。
我的数据集包括 12 个类、12 个特征并且是不平衡的。我有 ~3k 个数据点。
当我将参数调优的交叉验证训练分数与保留测试集上的分数进行比较时,这是否正常(或不足为奇)?
我已经为初始拆分和不同的评分方法(准确度、recall_macro、recall_weighted、cohen_kappa)尝试了不同的随机种子。
这是我的代码:
#Split data in training and test set (70/30 stratified split)
x_train, x_test, y_train, y_test = train_test_split(X_Distances, Y, test_size=0.3, random_state=42, stratify=Y, shuffle=True)
#Scorings used for parameter tuning evaluation
scoring = {'Accuracy' : make_scorer(accuracy_score), 'Recall' : 'recall_weighted', 'Kappa' : make_scorer(cohen_kappa_score)}
#Initializing of parameter ranges
params_randomSearch = {"min_samples_leaf": np.arange(1,30,2),
"min_samples_split": np.arange(2,20,2),
"max_depth": np.arange(2, 20, 2),
"min_weight_fraction_leaf": np.arange(0. ,0.4, 0.1),
"n_estimators": np.arange(10, 1000, 100),
"max_features" : ['auto', 'sqrt', 'log2', None],
"criterion" : ['entropy', 'gini']}
#Perform RandomSearchCV over a wide range of possible parameters
if __name__ == '__main__':
rs = RandomizedSearchCV(RandomForestClassifier(random_state=42), param_distributions=params_randomSearch, scoring = scoring, cv = 3, refit = 'Recall', n_iter=60, n_jobs=-1, random_state=42)
rs.fit(x_train, y_train)
print('Best Score: ', rs.best_score_, '\nBest parameters: ', rs.best_params_)
y_predict = rs.best_estimator_.predict(x_test)
acc = recall_score(y_test, y_predict, average='weighted')
recall_weighted 的结果:
# RandomizedSearchCV:
best_params_ = {dict} {'n_estimators': 310, 'min_weight_fraction_leaf': 0.0, 'min_samples_split': 12, 'min_samples_leaf': 5, 'max_features': 'auto', 'max_depth': 14, 'criterion': 'entropy'}
best_score_ = {float64} 0.5103216514642342
# Hold out test set:
0.5666293393057111
我想使用 hold-out 测试集来比较不同算法对该数据集的处理方式。
问题:我的方法是否有错误导致了这种分数差异,或者我可以忽略它吗?我应该如何解释它?
最佳答案
据我所知,一切都符合预期。
best_score_ 为最佳估算器提供 3 倍的平均分数:
每个折叠包含 ~1.386 个训练样本:3.000 * 0.7(训练大小)* 2/3(cv 训练大小)。
然后你在整个 x_train 上拟合最佳估计器(这是由 RandomizedSearchCV 的“refit”参数引起的),它有 ~2.100 个样本:3.000 * 0.7,这是更多。
例如,您可以尝试使用 cv=5 进行搜索,您可能会发现得分差异减小。
此外,您拥有的数据越多,CV 得分就越具有代表性。也许对于这个特定项目,3000 个样本还不够。
关于python - 为什么我在参数调整 (cv) 上的平均测试分数低于保持测试集 (RandomForestClassifier)?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49811885/
我到处都找了很多,找不到我的问题的答案。我试图从这个线程复制一个文本检测软件(Extracting text OpenCV)但是在代码的末尾有一条消息错误说没有匹配的矩形,即使我已经在上面绘制了一个并
我已经彻底搜索过,但没有找到直接的答案。 将 opencv 矩阵 (cv::Mat) 作为参数传递给函数,我们传递的是智能指针。我们对函数内部的输入矩阵所做的任何更改也会改变函数范围之外的矩阵。 我读
在我的应用程序中,我有一个通过引用接收 cv::Mat 对象的函数。这是函数的声明: void getChains(cv::Mat &img,std::vector &chains,cv::
我正在使用 Qt 编写一个 GUI 程序,并使用 OpenCV 进行一些视频处理。我在主 GUI 线程的标签中显示 OpenCV 进程(在单独的线程中)的结果。 我遇到的问题是 cv::waitKey
Mat a = (Mat_(3,3) = 2 int dims; //! the number of rows and columns or (-1, -1) when the arr
我尝试运行下面的代码,但出现错误。我正在为名为“Mat::at”的 OpenCV 函数创建一个包装器,并尝试使用“G++”将其编译为 Ubuntu Trusty 上的“.so”。我在下面列出了“.cp
我在 C# 中使用 EmguCV,当我想从网络摄像头抓取帧时遇到问题,语句中出现红色下划线: imgOrg = capturecam.QueryFrame(); error: Cannot impli
我正在尝试从另外两个矩阵生成一个 cv::Mat C,以便获得第三个矩阵,该矩阵由通过组合矩阵 A 和 B 的一维点生成的二维点构成。 我的问题是,我尝试的所有操作都只是连接矩阵,并没有真正将每个点与
我用 cv.imread在 python 中读取 png 文件。然后当我使用 cv.imwrite立即保存图像的功能我然后发现图像中的颜色略有变化。我正在尝试在此图像上执行字符识别,而 OCR 在 p
我尝试将 cv::bitwise_not 转换为 double 值的 cv::Mat 矩阵。我申请了 cv::bitwise_not(img, imgtemp); img是0和1的CV_64F数据。但
我正在尝试使用函数 cv.glmnet 找到最佳的 lambda(使用 RIDGE 回归)以预测某些对象的归属类别。所以我使用的代码是: CVGLM<-cv.glmnet(x,y,nfolds=34,
我有这个方法: static void WriteMatVect(const std::string& filename, const std::vector& mats); ... void Fil
下面的转换是我想要做的。 对于源图像中的每个图 block ,我知道每个角的坐标,并且我知道输出图像中每个对应角的坐标,所以我可以调用 cvWarpPerspective 扭曲每个图 block ,然
我必须在C++ / CLI中的托管和非托管代码中都使用OpenCV。 我正在尝试在托管代码中使用Emgu CV来包装OpenCV对象,但是在进行转换时遇到了麻烦。 我该怎么做: Emgu::CV::M
我正在尝试在 cv::Mat 中使用 CV_32FC4,以便它存储 RGBA32 图像。但是当我使用 cv::imwrite 将其保存为 png 文件时,结果文件始终是一个空图像。 例如,我创建了这样
无法在 VS 2017 中设置 OpenCV。我做错了什么?是的,我已将所有其他帖子设为红色。 代码: #include "opencv2/highgui/highgui.hpp" u
我有两个(相同大小,相同类型)cv:Mat 让我们称它们为 A,B。我还有另一个 cv::Mat,它是一个掩码(0 和 1 值或其他值,0 和 255 也适用)让我们称它为 M。 我需要构造一个新的
使用 OpenCV 中实现的 Scalar 类,我不明白这段代码有什么区别: Mat test; test = Scalar::all(0); 还有这个: Mat test = Scalar::all
我对这行代码感到困惑: cv::Mat_::iterator 我知道 Mat_ 属于 cv 命名空间和 vec3b 也。但是之后的最后一个 :: 操作符和 iterator 让我感到困惑!它也属于 c
我想优雅地将 Mat 转换为 Vec3f。目前我是这样做的: Mat line; Vec3f ln; ln[0] = line.
我是一名优秀的程序员,十分优秀!