gpt4 book ai didi

python - Scikit train_test_split 按指数

转载 作者:太空宇宙 更新时间:2023-11-03 15:39:09 27 4
gpt4 key购买 nike

我有一个按日期索引的 pandas 数据框。让我们假设它是从 1 月 1 日到 1 月 30 日。我想将此数据集拆分为 X_train、X_test、y_train、y_test,但我不想混合日期,所以我希望将火车和测试样本除以某个日期(或索引)。我在努力

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

但是当我检查这些值时,我发现日期是混合的。我想将我的数据拆分为:

Jan-1 到 Jan-24 进行训练,Jan-25 到 Jan-30 进行测试(因为 test_size 是 0.2,所以 24 需要训练,6 需要测试)

我该怎么做?谢谢

最佳答案

你应该使用

X_train, X_test, y_train, y_test = train_test_split(X,Y, shuffle=False, test_size=0.2, stratify=None)

不要使用 random_state=None 它会占用 numpy.random

here它提到使用 shuffle=Falsestratify=None

关于python - Scikit train_test_split 按指数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53648699/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com