gpt4 book ai didi

pandas - Scikit 学习系列的分割训练测试

转载 作者:行者123 更新时间:2023-12-02 02:21:06 26 4
gpt4 key购买 nike

我有一个数据,其中包含按排序顺序的日期。

我想将给定的数据拆分为训练集和测试集。但是,我必须以测试必须比训练集更新的方式分割数据。

请查看给定的示例:

假设我们有按日期排列的数据:

1、2、3、...、n。

从 1 到 n 的数字代表天数。

我想将其分成 20% 的数据作为训练集,80% 的数据作为测试集。

Good results:

1) train set = 1, 2, 3, ..., 20

test set = 21, ..., 100


2) train set = 101, 102, ... 120

test set = 121, ... 200

我的代码:

train_size = 0.2
train_dataframe, test_dataframe = cross_validation.train_test_split(features_dataframe, train_size=train_size)

train_dataframe = train_dataframe.sort(["date"])
test_dataframe = test_dataframe.sort(["date"])

对我不起作用!

有什么建议吗?

最佳答案

如果您坚持所有测试数据都比所有训练数据更新,那么只有一种方法可以实现所需的 20/80 分割。

n = features_dataframe.shape[0]
train_size = 0.2

features_dataframe = features_dataframe.sort_values('date')
train_dataframe = features_dataframe.iloc[:int(n * train_size)]
test_dataframe = features_dataframe.iloc[int(n * train_size):]
<小时/>

而且它没有任何随机性。

关于pandas - Scikit 学习系列的分割训练测试,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39717090/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com