gpt4 book ai didi

r - 如何在训练集和测试集之间分割数据集,同时保持两组中目标变量的比率?

转载 作者:行者123 更新时间:2023-11-30 08:58:05 25 4
gpt4 key购买 nike

我有一个数据集,打算将其拆分为训练集测试集,以便使用进行机器学习分析R.

假设我的数据集(称为 MyDataset)基于目标变量(称为 Leaver)的"is"(60%)和“否”(40%)比率,如何确保我的分割在训练集和测试集中都保持该比例?

最佳答案

您想要做的是对数据集进行分层分割。您可以使用 caret 包中的 createDataPartition 来完成此操作。只需确保您的 Leaver 变量被设置为一个因素即可。

请参阅下面的代码示例。

library(caret)
data(GermanCredit)

prop.table(table(GermanCredit$Class))
Bad Good
0.3 0.7
index <- createDataPartition(GermanCredit$Class, p = 0.6, list = FALSE)

# train
prop.table(table(GermanCredit$Class[index]))
Bad Good
0.3 0.7
#test
prop.table(table(GermanCredit$Class[-index]))
Bad Good
0.3 0.7

关于r - 如何在训练集和测试集之间分割数据集,同时保持两组中目标变量的比率?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51570424/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com