machine-learning - 当各个分类器适合不同的数据集时，如何在 sklearn 中构建投票分类器？-6ren

machine-learning - 当各个分类器适合不同的数据集时，如何在 sklearn 中构建投票分类器？

转载作者：行者123 更新时间：2023-11-30 09:16:37

26

4

我正在使用高度不平衡的数据构建分类器。我感兴趣的测试策略是使用3 个不同的重采样数据集来集成模型。换句话说，每个数据集将包含稀有类别的所有样本，但仅包含丰富类别的 n 个样本 ( technique #4 mentioned in this article )。

我想在每个重采样数据集上拟合 3 个不同的 VotingClassifiers，然后使用另一个 VotingClassifier(或相似的)。我知道构建单个投票分类器如下所示:

# First Model
rnd_clf_1 = RandomForestClassifier()
xgb_clf_1 = XGBClassifier()

voting_clf_1 = VotingClassifier(
    estimators = [
        ('rf', rnd_clf_1), 
        ('xgb', xgb_clf_1),
    ],
    voting='soft'
)

# And I can fit it with the first dataset this way:
voting_clf_1.fit(X_train_1, y_train_1)

但是如果将它们三个拟合到不同的数据集上，如何堆叠它们呢？例如，如果我有三个拟合模型(请参见下面的代码)，我可以构建一个函数，在每个模型上调用 .predict_proba() 方法，然后“手动”平均各个概率。

但是...有更好的方法吗？

# Fitting the individual models... but how to combine the predictions?
voting_clf_1.fit(X_train_1, y_train_1)
voting_clf_2.fit(X_train_2, y_train_2)
voting_clf_3.fit(X_train_3, y_train_3)

谢谢!

最佳答案

通常，本文中显示的#4 方法是使用相同类型的分类器实现的。您似乎想在每个示例数据集上尝试 VotingClassifier。

imblearn.ensemble.BalancedBaggingClassifier 中已经实现了此方法。，这是 Sklearn Bagging 方法的扩展。

您可以将估计器作为 VotingClassifier 提供，并将估计器的数量作为您想要执行数据集采样的次数。使用 sampling_strategy 参数指定您想要在 Majority 类上进行下采样的比例。

工作示例:

from collections import Counter
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix
from sklearn.ensemble import RandomForestClassifier
import xgboost as xgb
from sklearn.ensemble import RandomForestClassifier, VotingClassifier
from imblearn.ensemble import BalancedBaggingClassifier # doctest: +NORMALIZE_WHITESPACE
X, y = make_classification(n_classes=2, class_sep=2,
weights=[0.1, 0.9], n_informative=3, n_redundant=1, flip_y=0,
n_features=20, n_clusters_per_class=1, n_samples=1000, random_state=10)
print('Original dataset shape %s' % Counter(y))

X_train, X_test, y_train, y_test = train_test_split(X, y,
                                                    random_state=0)

rnd_clf_1 = RandomForestClassifier()
xgb_clf_1 = xgb.XGBClassifier()

voting_clf_1 = VotingClassifier(
    estimators = [
        ('rf', rnd_clf_1), 
        ('xgb', xgb_clf_1),
    ],
    voting='soft'
)

bbc = BalancedBaggingClassifier(base_estimator=voting_clf_1, random_state=42)
bbc.fit(X_train, y_train) # doctest: +ELLIPSIS

y_pred = bbc.predict(X_test)
print(confusion_matrix(y_test, y_pred))

参见here 。也许您可以在手动拟合估计器后重用 _predict_proba() 和 _collect_probas() 函数。

关于machine-learning - 当各个分类器适合不同的数据集时，如何在 sklearn 中构建投票分类器？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/54535672/

26

4

0

文章推荐： Java堆空间错误/内存不足错误

文章推荐： javascript - 获取新对象的对象变量名

android - Gradle 构建 VS Eclipse 构建
我在使用 gradle 构建一个特定应用程序时遇到问题。该应用程序可以用 eclipse 编译和构建，它在平板电脑上运行良好。当我尝试使用 Gradle 构建它时，“compileDebugJava”
c - 构建 C 程序的最佳实践(用于 CMake 构建)
我有一个 C 程序，是一位离开的开发人员留给我的。我试图弄清楚他到底在做什么，并将软件重新安排成更合乎逻辑的东西，这样我就可以更轻松地构建它。我正在使用 CMake 构建，而他使用的是 Make。有
gradle - 尝试 Gradle 构建 - 在根项目中找不到 "Task ' 构建“
我刚开始阅读“Pro Spring MVC with web flow”，它附带了一个我想遵循的代码示例。我要什么 - 我想像书中那样构建应用程序，使用 Gradle 有什么问题 - 我没用过 Gr
javascript - Teamcity 上的 Angular-cli 构建(ng 构建)
我希望有人已经这样做了。我正在尝试为我的一个 angular 2 项目在 teamcity 中建立一个连续的构建。在做了一些研究之后，我按照以下步骤操作: 构建步骤 1:为 teamcity 安装 j
c# - 使用 MSBuild 构建 ASP.Net 网站不同于 Visual Studio 构建
我有一个旧的 ASP.Net 网站解决方案，看起来像: 当我在 Visual Studio 中构建解决方案时，我得到以下输出: ------ Build started: Project: C:\..
gulp-useref 构建 concat 脚本和 css 但不替换 <--!构建 --> 在 html 中
我使用 gulp-usref、gulp-if、gulp-uglify、gulp-csso 和 gulp-file-include 来构建我的应用程序。除了 HTML 保持原样外，构建中的一切都运行良好
ios - ionic 构建 ios 成功，但 ionic 构建 ios --release 失败
我正在使用 ionic2 开发内部移动应用程序。我可以通过以下方式成功构建 ios: ionic build ios and ionic build ios --prod 但当我这样做时，它一直失败
entity-framework - 构建/构建 Azure 移动应用服务 Entity Framework 代码优先和 .NET APK 项目
我是一位经验丰富的 .NET/C# 开发人员，但对这里的几乎所有技术/库(包括 SQL/DB 工作)都是新手。我正在开发一个具有 Azure/Entity Framework .NET 后端和可移植
visual-studio-2008 - 可以使用 Visual Studio IDE 构建，但无法使用 devenv.com 构建
我正在使用 VS 2008。我可以使用 IDE 成功编译我的解决方案。但是，当我尝试使用 devenv.com 构建它时，它失败并提示“错误:找不到项目输出组'(无法确定名称)的输出”。该组、其配置或
node.js - Ember.js 2.7 不使用 yarn 构建 - 使用 npm 构建
版本: ember.js 2.7，ember-data 2.7 ember-cli 2.9.1//同样适用于 ember-cli 2.7 node 6.9.1, npm 3.10.9//也适用于 no
f# - 如何使用 Azure Devops Pipelines 构建 F# 项目？我收到错误 'The target "构建“项目中不存在”
我第一次修补 AzureDevops，设置一些 CI 任务。我有一个公共(public)存储库(开源)和一个包含 3 个 F# 项目的解决方案(.sln)。该解决方案在 Windows/Mac/Li
visual-studio-2008 - 有没有人已经完成了使用 VS2008 构建 STLPort 和/或使用 VS2005 构建 x64 的工作？
目前 5.1.5 版本或 STLPort CVS 存储库似乎仍不支持 VS2008。如果有人已经完成了这项工作，那么如果可能的话，分享会很有用:) 同样，了解 VS2005 或 2008 x64 构建
python - 为 Python 3.5 构建 Fortran 扩展或为 2.7 构建 C 扩展
我有一个 Python 2.7 项目，到目前为止一直使用 gfortran 和 MinGW 来构建扩展。我使用 MinGW，因为它似乎支持 Fortran 代码中的写入语句和可分配数组，而 MSVC
PHP安装\构建
关闭。这个问题是off-topic .它目前不接受答案。想改进这个问题？ Update the question所以它是on-topic对于堆栈溢出。 9年前关闭。 Improve this que
构建 Zimbra
我想知道为什么在 Zimbra Wiki 中只列出了构建过程的特定平台。这意味着不可能在其他 Linux 发行版上构建 Zimbra？ Zimbra 社区选择一个特殊的 Linux 发行版来构建 Zi
从命令行快速主运行/构建
我将在 Swift 中构建一个 CLI 工具。我用这个命令创建了项目 swift package init --type executable当我构建我的项目并解析时读取别名 Xcode 中的参数并
构建 docker 镜像的文件所有权
我想为添加到 docker 镜像的文件设置文件权限。我有这个简单的 Dockerfile: FROM ubuntu:utopic WORKDIR /app RUN groupadd -g 1000 b
构建 opencl 内核失败
当我使用 clBuildProgram在我的 OpenCl 代码中，它失败并显示错误代码 -11，没有任何日志信息。这是我的代码的样子: ret = clBuildProgram(program
多次调用 Flutter 构建
我有一个底部导航栏，它有一个列表页面，该页面使用状态块。 class _MainPageState extends State { int _index = 0; @override Wi
windows - 将更改推送到Github时如何自动触发Jenkins作业/构建
我在本地计算机上使用Jenkins(Jenkins URL未通过Internet公开，但该计算机上已启用Internet。) 我进行了以下配置更改: 在Jenkins工具上安装了Git和Github插

首页

博学

6Ren·AI

商城

machine-learning - 当各个分类器适合不同的数据集时，如何在 sklearn 中构建投票分类器？