gpt4 book ai didi

python:从数据中随机抽样但保持相同的分布

转载 作者:行者123 更新时间:2023-12-02 00:44:04 25 4
gpt4 key购买 nike

我有一个包含 20,000 多个实例的训练数据,分为 3 个类,分布如下 A=10%、B=20%、C=70%。 sklearn 或 pandas 或其他任何可以从这些数据中抽取 10% 样本但同时尊重不同类别分布的方法吗?因为我需要对数据进行网格搜索,但原始数据集维度太高(20,000 x 12,000 特征维度)

train_test_split 将保持分布,但它只是将整个数据集分成两组,这仍然太大了。

谢谢

最佳答案

你应该使用 Stratifiefkfold .折叠是通过保留每个类别的样本百分比来制作的。请参阅使用它的文档。

关于python:从数据中随机抽样但保持相同的分布,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44964626/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com