gpt4 book ai didi

python-3.x - 非随机地将数据拆分为训练和测试

转载 作者:行者123 更新时间:2023-11-30 08:40:43 24 4
gpt4 key购买 nike

我想将数据集分成两部分,75% 用于训练,25% 用于测试。有两个类。我有另一个数据集,其中只有一个类的一个实例,其余所有实例都属于第二类。所以我不想随机分割。我想确保,如果一个类只有一个实例,那么它应该处于训练中。任何想法如何去做。我知道我必须选择索引,但我不知道如何选择。现在,我正在这样做,选择前 75% 作为训练,剩下的作为测试

train_data = df[:int((len(df)+1)*.75)] 
test_data = df[int(len(df)*.75+1):]

最佳答案

这可能会有所帮助:GroupKFold。在那里找到 sklearn 文档:

http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GroupKFold.html

关于python-3.x - 非随机地将数据拆分为训练和测试,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49564050/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com