gpt4 book ai didi

python - 如何在 Scikit-Learn 中对训练和测试数据进行分层?

转载 作者:行者123 更新时间:2023-12-05 09:11:07 26 4
gpt4 key购买 nike

我正在尝试为 Iris 数据集(从 Kaggle 下载)实现分类算法。在物种列中,类别(Iris-setosa、Iris-versicolor、Iris-virginica)按排序顺序排列。如何使用 Scikit-Learn 对训练和测试数据进行分层?

最佳答案

如果你想以 0.3 的测试比率对数据进行洗牌和拆分,你可以使用

sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, shuffle=True)

其中 X 是您的数据,y 是相应的标签,test_size 是应该保留用于测试的数据的百分比,shuffle=True 在之前打乱数据 split

为了确保数据按列均分,可以将其赋予stratify参数。

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, 
shuffle=True,
stratify = X['YOUR_COLUMN_LABEL'])

关于python - 如何在 Scikit-Learn 中对训练和测试数据进行分层?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60530673/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com