gpt4 book ai didi

r - 处理训练和测试数据中的不同因子水平

转载 作者:行者123 更新时间:2023-11-30 08:32:28 26 4
gpt4 key购买 nike

我有一个 20 列的训练数据集,所有这些都是我必须用于训练模型的因素,我已经获得了测试数据集,我必须在该数据集上应用我的模型进行预测并提交。

我正在进行初始数据探索,只是出于好奇检查了训练数据和测试数据级别,因为我们正在处理所有类别变量。令我沮丧的是,大多数类别(变量)在训练和测试中都有不同的级别数据集。

例如

table(train$cap.shape) #training data column levels
b c f k x
196 4 2356 828 2300

table(test$cap.shape) #test data

b f s x
256 796 32 1356

这里我在测试数据集中有一个额外的类别,我该如何处理这些情况,训练中 c 的额外类别非常低,所以我正在考虑根据其分布情况将该因素与其他因素合并与因变量,但我坚持如何处理测试中的额外级别。

更多示例

table(train$odor) #train
c f m n p s y
189 2155 36 2150 2 576 576

table(test$odor) #test

a c f l n p
400 3 5 400 1378 254

在本专栏中,我们有 2 个额外的测试级别,测试数据集中有大量实例。我该如何处理这些差异。

table(train$sColour) #train
b h k n o r w y
48 1627 700 753 48 72 2388 48

table(test$sColour) #test
h k n u
5 1172 1215 48

这里我们有额外的 u 因子

我是否应该首先在训练集上构建模型并找到重要的预测变量,然后担心因子水平?

最佳答案

拥有不同的特征集违反了机器学习的基本原则。训练和测试数据必须代表相同的数据空间。这些都没有;尽管每一对都有一个共同的特征核心(维度),但要在同一模型上使用它们,您必须将每个集合减少为仅共同特征,或者将两者扩展到特征的并集,填写“不”额外功能的“care”或语义上的空值。

关于r - 处理训练和测试数据中的不同因子水平,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40536257/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com