gpt4 book ai didi

python - 在火车测试拆分操作(scikit)后使数据平衡?

转载 作者:行者123 更新时间:2023-12-05 06:22:41 26 4
gpt4 key购买 nike

我遇到了问题,在将我的数据拆分为训练数据和测试数据之后,我的测试集中完全缺少一类。

Example on 60/40 split: <br/>
Training: 'Orange', 0,0,0, 'Orange' <br/>
Testdata: 0,0,0,0,0

显然“orange”这个词不包含在测试集中。如何确保拆分考虑到至少有一些目标样本包含在测试集中和训练集中?我认为 stratify 参数可以做到这一点,但不幸的是没有。

最佳答案

1。使用下面来拆分您的训练/测试数据 - 这使用了 train_test_split 的分层选项

   from sklearn.model_selection import train_test_split 
train, test = train_test_split(X, test_size=0.25, stratify=y)

2。或者您可以尝试使用 - stratified K fold这将应用 k 折交叉验证

关于python - 在火车测试拆分操作(scikit)后使数据平衡?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58991432/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com