gpt4 book ai didi

machine-learning - 机器学习 - 将数据划分为测试集和训练集

转载 作者:行者123 更新时间:2023-11-30 08:34:15 24 4
gpt4 key购买 nike

如何将给定数据集划分为训练集和测试集及其正确的标签。

通过 sklearn 库有一个相同的实现:

from sklearn.cross_validation import train_test_split

train, test = train_test_split(df, test_size = 0.2)

其中 df 是原始数据集......例如:字符串列表

问题是它没有将目标/标签与数据集一起获取。所以我们无法跟踪哪个标签属于哪个数据点...

有什么方法可以绑定(bind)数据点及其标签,然后将数据集拆分为训练和测试吗?

最佳答案

sklearn.cross_validation.train_test_split本质上需要分割可变数量的数组

*arrays : sequence of arrays or scipy.sparse matrices with same shape[0]

Returns:
splitting : list of arrays, length=2 * len(arrays) List containing train-test split of input array.

这样你就可以沿着标签列表添加:

from sklearn import cross_validation

df = ['the', 'quick', 'brown', 'fox']
labels = [0, 1, 0, 0]

>> cross_validation.train_test_split(df, labels, test_size=0.2)
[['quick', 'fox', 'the'], ['brown'], [1, 0, 0], [0]]

关于machine-learning - 机器学习 - 将数据划分为测试集和训练集,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32754331/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com