gpt4 book ai didi

machine-learning - 训练+测试集是否必须与预测集不同(以便您需要对所有列应用时移)?

转载 作者:行者123 更新时间:2023-11-30 09:40:17 25 4
gpt4 key购买 nike

我知道我们应该仅在测试集上测试经过训练的分类器的一般规则。

但现在出现了问题:当我准备好经过训练和测试的分类器时,我可以将其应用到作为训练和测试集基础的同一数据集吗? 或者我是否必须将其应用于与训练+测试集不同的新预测集?

如果我预测时间序列的标签列怎么办(稍后编辑:我并不是想在这里创建经典的时间序列分析,而是只是从典型数据库中广泛选择列,每周、每月或随机存储的数据,我将其转换为单独的特征列,每个特征列为一周/一个月/一年...),我是否必须移动全部训练+测试集的特征(不仅是时间序列标签列的过去列,还包括所有其他正常特征)回到数据与预测集没有“知识”拦截的时间点? p>

然后,我将根据过去 n 个月的特征来训练和测试分类器,针对未移动且最新的标签列进行评分,然后根据最近未移动的特征进行预测。移位和未移位的特征具有相同的列数,我通过将移位特征的列名称分配给未移位的特征来对齐移位和未移位的特征。

附注:

p.s.1:https://en.wikipedia.org/wiki/Dependent_and_independent_variables 的一般方法

在数据挖掘工具(用于多元统计和机器学习)中,因变量被分配为目标变量(或在某些工具中为标签属性),而自变量可能被分配为常规变量。[ 8]为训练数据集和测试数据集提供了目标变量的已知值,但应对其他数据进行预测

p.s.2:在这个基础教程中,我们可以看到预测集有所不同:https://scikit-learn.org/stable/tutorial/basic/tutorial.html

我们使用 [:-1] Python 语法选择训练集,它会生成一个新数组,其中包含 digitals.data 中除最后一项之外的所有 > 项:[...] 现在您可以预测新值。在这种情况下,您将使用digits.data [-1:]中的最后一个图像进行预测。通过预测,您将从训练集中确定与最后一个图像最匹配的图像。

最佳答案

我认为您混淆了一些概念,因此我将尝试对监督学习进行一般性解释。

  • 训练集是您的算法学习的内容。您将其分为 X(特征)和 Y(目标变量)。
  • 测试集是用于对模型进行评分的集合,它必须包含训练集中不存在的数据。这意味着测试集也有 X 和 Y(意味着您知道目标的值)。发生的情况是,您根据 X 预测 f(Y),并将其与您拥有的 Y 进行比较,看看您的预测有多好
  • 预测集就是新数据!这意味着通常你没有目标,因为监督学习的全部意义在于预测它。您将只有 X(特征),并且您将预测 f(X)(您对目标 Y 的估计)并将其用于您需要的任何用途。

因此,最终测试集只是一个预测集,您可以将其与您的估计进行比较。

对于时间序列,情况要复杂一些,因为特征 (X) 通常是目标变量 (Y) 过去数据的变换。例如,如果您想预测今天的 SP500 价格,您可能需要使用过去 30 天的平均值作为特征。这意味着对于每个新的一天,您都需要重新计算过去几天的此功能。
但总的来说,如果您是机器学习新手,我建议您从非时间序列数据开始,因为时间序列在特征工程和数据管理方面要困难得多,而且很容易出错。

关于machine-learning - 训练+测试集是否必须与预测集不同(以便您需要对所有列应用时移)?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59210109/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com