python - 微调超参数不会提高分类器的分数-6ren

python - 微调超参数不会提高分类器的分数

转载作者：行者123 更新时间：2023-12-04 08:41:37

24

4

我遇到了一个问题，即使用 GridSearchCV 微调超参数并不能真正改善我的分类器。我认为改进应该比这更大。我使用当前代码获得的分类器的最大改进约为 +-0.03。我有一个包含八列和不平衡二进制结果的数据集。对于评分，我使用 f1，我使用 KFold 和 10 个分割。我希望有人能发现什么东西坏了，我应该看看吗？谢谢!
我使用以下代码:

model_parameters = {
    "GaussianNB": {     
    },
    "DecisionTreeClassifier": {
        'min_samples_leaf': range(5, 9),
        'max_depth': [None, 0, 1, 2, 3, 4]
    },
    "KNeighborsClassifier": {
        'n_neighbors': range(1, 10),
        'weights': ["distance", "uniform"]
    },
    "SVM": {
        'kernel': ["poly"],
        'C': np.linspace(0, 15, 30)
    },
    "LogisticRegression": {
        'C': np.linspace(0, 15, 30),
        'penalty': ["l1", "l2", "elasticnet", "none"]
    }
}

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.4)
n_splits = 10
scoring_method = make_scorer(lambda true_target, prediction: f1_score(true_target, prediction, average="micro"))
cv = KFold(n_splits=n_splits, random_state=random_state, shuffle=True)

for model_name, parameters in model_parameters.items():

    # Models is a dict with 5 classifiers
    model = models[model_name]
    grid_search = GridSearchCV(model, parameters, cv=cv, n_jobs=-1, scoring=scoring_method, verbose=False).fit(X_train, y_train)
    
    cvScore = cross_val_score(grid_search.best_estimator_, X_test, y_test, cv=cv, scoring='f1').mean()
    classDict[model_name] = cvScore

最佳答案

如果你的类(class)不平衡，当你做 Kfold 时，你应该保持两个目标之间的比例。
折叠不平衡会导致非常糟糕的结果
检查 Stratified K-Folds cross-validator

Provides train/test indices to split data in train/test sets.

This cross-validation object is a variation of KFold that returnsstratified folds. The folds are made by preserving the percentage ofsamples for each class.

还有很多技术可以处理不平衡的数据集。基于上下文:

对少数类进行上采样(例如使用 resample from sklearn )

对多数类进行欠采样(还有这个 lib 有一些有用的工具可以同时进行欠\向上采样)

使用您的特定 ML 模型处理不平衡

例如，在 SVC 中，创建模型时有一个参数， class_weight='balanced'

clf_3 = SVC(kernel='linear', 
            class_weight='balanced', # penalize
            probability=True)

这将惩罚更多的少数类错误。
您可以像这样更改配置:

"SVM": {
        'kernel': ["poly"],
        'C': np.linspace(0, 15, 30),
        'class_weight': 'balanced'

    }

对于 LogisticRegression，您可以设置权重，以反射(reflect)您的类的比例

LogisticRegression(class_weight={0:1, 1:10}) # if problem is a binary one

以这种方式更改网格搜索字典:

"LogisticRegression": {
        'C': np.linspace(0, 15, 30),
        'penalty': ["l1", "l2", "elasticnet", "none"],
        'class_weight':{0:1, 1:10}
    }

无论如何，该方法取决于使用的模型。例如，对于神经网络，您可以更改损失函数以通过加权计算来惩罚少数类(与逻辑回归相同)

关于python - 微调超参数不会提高分类器的分数，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/64542349/

24

4

0

文章推荐： mysql - 如何将 JWT 链接到我的用户信息数据库

文章推荐： javascript - Google Appscript 使用 for 循环和 if

文章推荐： html - 为什么叠加的图片和标志+文字不起作用？

文章推荐： python - 如何找到一对数的最大公因数？

delphi - 如何访问Delphi中的基(超)类？
在C#中，我可以通过base关键字访问基类，在java中，我可以通过super关键字访问它。在delphi中如何做到这一点？假设我有以下代码: type TForm3 = class(TF
mysql - 用于数据库设计的抽象/超/子类结构
在这件事上我已经把头撞到墙上好几次了。所以我希望在正确的方向上得到一点帮助。我有一张 table ，上面有订单，一张 table 上有火车，一张 table 上有航类，一张 table 上有巴士。每
python - 如何初始化基(超)类？
在 Python 中，假设我有以下代码: class SuperClass(object): def __init__(self, x): self.x = x
ios - 超 View 边框正在切入 subview
我希望这个 subview 扩展到它的父 View 之外，但是父 View 的边框正在切入 subview 。有没有办法防止这种情况？ class TheView : UIView { let
具有峰值和平顶(超)高斯信号的 Python 曲线拟合问题
我有一个标准的高斯函数，看起来像这样: def gauss_fnc(x, amp, cen, sigma): return amp * np.exp(-(x - cen) ** 2 / (2
具有下界(超)类型的 Java 方法
例如，我有下一个类，带有有界类型参数: public class ItemContainer { void addItems(List items); } 在另一个带有参数的类中使用: pub
batch-file - 7zip 超 LZMA2 压缩
如何将此设置转换为命令？结果如下: // Manual Compression (see the image above) Compressed Size: 12,647,451 bytes //
java - Lombok @Wither/@With Inheritance(超/子类)
请建议在应用继承时如何使用@Wither/@With。我有一个抽象类Parent和具体的Child。 Child 应该是不可变的。将 @Wither 放在两者上会给我两个错误: 构造函数 Child
networking - 超 V : Network Adapter Drivers
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。这个问题似乎不是关于 a specific programming problem, a softwar
python - 超 HTTP2 自定义 SSLContext 错误
我正在尝试向服务器(虚拟托管)发出 HTTP2 请求，该服务器根据主机 header 值 (SNI) 提供 SSL 证书。 # conn = hyper.HTTP20Connection('h
java - 超 SQL (HSQLDB) : massive insert performance
我有一个应用程序，必须将大约 1300 万行、大约 10 个平均长度的字符串插入到嵌入式 HSQLDB 中。我一直在调整一些东西(批量大小、单线程/多线程、缓存/非缓存表、MVCC 事务、log_si
julia - 在 Julia 中，如何正确地对调用者提供的(超)类型的参数进行方法分派(dispatch)？
我想定义一个函数f(x, t::Type)根据 isa(x, t) 是否执行不同的行为.假设我想调用b1(x)如果是，b2(x)除此以外。我知道我可以像这样在运行时进行动态检查: function
c# - 超 V WMI : Import virtual machine and create snapshot
我正在使用 Hyper-V WMI Provider在 Hyper-V 中导入虚拟机，特别是使用 ImportVirtualSystemEx Msvm_VirtualSystemManagementS
c - 如何在(旧)opengl (2.4) 中按程序绘制(超/n-)立方体
这几个星期以来一直困扰着我，我没有结束对它的研究，因为我目前重载并且它让我落后于第一年的 CS (opengl) 大学类(class)，这首先让我研究了这个:如何只用一个 for 循环绘制立方体的所有
linux - 超 V 错误。同时运行 Windows Phone 模拟器和 VM (Windows 8)
我正在我的计算机(操作系统:Windows 8)上开发一个 WP8 应用程序。我需要安装一个 VM 才能拥有 linux。同时我需要使用我的 Windows Phone 模拟器。我下载了 VMWar

首页

博学

6Ren·AI

商城

python - 微调超参数不会提高分类器的分数