machine-learning - 将所有特征置于与目标变量相同的范围内对性能有何影响？-6ren

machine-learning - 将所有特征置于与目标变量相同的范围内对性能有何影响？

转载作者：行者123 更新时间：2023-11-30 09:28:33

27

4

假设我有以下数据集。 (数据完全随机)

Colour  Size       Shape        Pre booking number  Price
White   24         Square          600              1400
Blue    35         Circle          435              1854
Black   16         Square          873              1272
White   43         Triangle        221              1777
White   20         Oval            532              1434
Black   35         Triangle        221              ????

我必须预测 [颜色、尺寸、形状、预订编号] 的特定组合的价格

考虑以下特征工程方法我选择颜色与价格。我按颜色分组以找出每个组(颜色)的平均价格，然后简单地将颜色变量替换为其各自的平均值。我对每个分类变量都这样做。对于非分类变量，我保持原样。

Colour  Size        Shape   Pre booking number      Price
1536    1400        1336        600                 1400
1854    1854        1854        435                 1854
1272    1272        1336        873                 1272
1536    1777        1777        221                 1777
1536    1434        1434        532                 1434
1272    1854        1777.       221                 ????

现在我将这些数据提供给任何机器学习回归模型。

我的问题是:

这种方法有多好/坏？内部发生了什么？
一般来说，使所有变量与目标变量(也许在同一尺度上)具有强相关性有多有效？
最重要的是，如果我仅通过添加/相乘来减少维度来合并两个或多个分类列，它将如何影响预测？

谢谢。

最佳答案

据我所知，对颜色和形状等名义特征的一种热编码表现更好。像您所做的那样输入整数值会为蓝色而不是白色添加附加值，这是没有意义的。您已经假设颜色和价格之间存在高度相关性，这可能是错误的，也可能不是错误的。我将运行顺序向后选择来检查功能的实际重要性。如果颜色和价格高度相关，您的方法可能是正确的，您现在应该缩放功能。
将功能调整到相同的规模非常有效，因为这有助于赋予每个功能合理的重要性。如果某个特征的数量级为数千个并且未缩放，则权重可能会过度重视该特征。显然，与目标变量相关性较高的特征应该包含在训练中。
合并两个不相关的分类列会影响您的结果。另一方面，如果它们高度相关，那么你可以将它们合并。然而，我不确定您是否应该为这个没有太多特征列的数据集进行降维。不过，如果您想知道如何组合两个彼此相关性较弱但与目标变量高度相关的特征，这里有一个线程: https://stats.stackexchange.com/q/110984

这是另一篇关于数据过滤的好文章: https://towardsdatascience.com/data-correlation-can-make-or-break-your-machine-learning-project-82ee11039cc9

最后，对某种方法的评论可能不准确。您始终需要了解它们的相关程度并尝试不同的方法和模型。检查您的数据是否具有线性或非线性相关性，并相应地选择您的模型。对相对简单的数据进行复杂的修改并使用不必要的复杂模型可能并不总是一个好方法。

关于machine-learning - 将所有特征置于与目标变量相同的范围内对性能有何影响？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/51785074/

27

4

0

文章推荐： javascript - 如何创建一个每 1-8 秒递增 1 的计数器(随机)

文章推荐： Javascript 代码在 while 循环中不起作用

文章推荐： java - 发生 EOFException 时返回是否安全

machine-learning - 如果不涉及 "unsupervised learning"，算法是否可以归类为 "learning"？
基本上，我的问题是，由于无监督学习是机器学习的一种，是否需要机器“学习”的某些方面并根据其发现进行改进？例如，如果开发了一种算法来获取未标记的图像并找到它们之间的关联，那么它是否需要根据这些关联来改进
machine-learning - 短语 "a machine learning algorithm learn a probability distribution"是什么意思？这里究竟发生了什么
生成模型和判别模型似乎可以学习条件 P(x|y) 和联合 P(x,y) 概率分布。但从根本上讲，我无法说服自己“学习概率分布”意味着什么。最佳答案这意味着您的模型要么充当训练样本的分布估计器，要么
scikit-learn - scikit-learn 中的成本敏感分析
是否有类似于的 scikit-learn 方法/类元成本在 Weka 或其他实用程序中实现的算法以执行常量敏感分析？最佳答案不，没有。部分分类器提供 class_weight和 sample_
machine-learning - Scikit-learn 支持迁移学习吗？
是否Scikit-learn支持迁移学习？请检查以下代码。型号 clf由 fit(X,y) 获取 jar 头型号clf2在clf的基础上学习和转移学习 fit(X2,y2) ? >>> from s
scikit-learn - Scikit Learn 分层交叉验证中的差异
我发现使用相同数据的两种交叉验证技术之间的分类性能存在差异。我想知道是否有人可以阐明这一点。方法一:cross_validation.train_test_split 方法 2:分层折叠。具有相同
scikit-learn - scikit-learn 中嵌套交叉验证的令人困惑的例子
我正在查看 scikit-learn 文档中的这个示例:http://scikit-learn.org/0.18/auto_examples/model_selection/plot_nested_c
scikit-learn - scikit-learn 中的哪些估计器不支持稀疏矩阵？
我想训练一个具有很多标称属性的数据集。我从一些帖子中注意到，要转换标称属性必须将它们转换为重复的二进制特征。另外据我所知，这样做在概念上会使数据集稀疏。我也知道 scikit-learn 使用稀疏矩阵
scikit-learn - 多标签分类的特征选择(scikit-learn)
我正在尝试在 scikit-learn (sklearn.feature_selection.SelectKBest) 中通过卡方方法进行特征选择。当我尝试将其应用于多标签问题时，我收到此警告: 用户
scikit-learn - scikit-learn 默认使用哪种决策树算法？
有几种算法可以构建决策树，例如 CART(分类和回归树)、ID3(迭代二分法 3)等 scikit-learn 默认使用哪种决策树算法？当我查看一些决策树 python 脚本时，它神奇地生成了带有
scikit-learn - 多标签分类的特征选择(scikit-learn)
我正在尝试在 scikit-learn (sklearn.feature_selection.SelectKBest) 中通过卡方方法进行特征选择。当我尝试将其应用于多标签问题时，我收到此警告: 用户
scikit-learn - scikit-learn 默认使用哪种决策树算法？
有几种算法可以构建决策树，例如 CART(分类和回归树)、ID3(迭代二分法 3)等 scikit-learn 默认使用哪种决策树算法？当我查看一些决策树 python 脚本时，它神奇地生成了带有
scikit-learn - scikit-learn 的进度条？
有没有办法让 scikit-learn 中的 fit 方法有一个进度条？是否可以包含自定义的类似 Pyprind 的内容？ ? 最佳答案如果您使用 verbose=1 初始化模型调用前 fit你应
reinforcement-learning - Q-Learning 收敛到最优策略
我正在使用基于 rlglue 的 python-rl q 学习框架。我的理解是，随着情节的发展，算法会收敛到一个最优策略(这是一个映射，说明在什么状态下采取什么行动)。问题 1:这是否意味着经过若
scikit-learn - scikit-learn 中交叉验证的一种标准错误规则
我正在尝试使用 grisSearchCV 在 scikit-learn 中拟合一些模型，并且我想使用“一个标准错误”规则来选择最佳模型，即从分数在 1 以内的模型子集中选择最简约的模型最好成绩的标准误
machine-learning - scikit learn 离散化分类数值数据
我正在尝试离散数据以进行分类。它们的值是字符串，我将它们转换为数字 0,1,2,3。这就是数据的样子(pandas 数据框)。我已将数据帧拆分为 dataLabel 和 dataFeatures L
machine-learning - 具有多项式朴素贝叶斯的大量类 (scikit-learn)
每当我开始拥有更多的类(1000 或更多)时，MultinominalNB 就会变得非常慢并且需要 GB 的 RAM。对于所有支持 .partial_fit()(SGDClassifier、Perce
machine-learning - scikit-learn 中一些感知器参数的解释
我需要使用感知器算法来研究一些非线性可分数据集的学习率和渐近误差。为了做到这一点，我需要了解构造函数的一些参数。我花了很多时间在谷歌上搜索它们，但我仍然不太明白它们的作用或如何使用它们。给我带来更
machine-learning - scikit learn 中序数数据和分类数据作为标签的区别
我知道作为功能 ordinal data could be assigned arbitrary numbers and OneHotEncoding could be done for catego
machine-learning - scikit learn 对停用词进行分类
这是一个示例，其中有逐步的过程使系统学习并对输入数据进行分类。它对给定的 5 个数据集域进行了正确分类。此外，它还对停用词进行分类。例如输入:docs_new = ['上帝就是爱', '什么在哪
machine-learning - scikit-learn 中多标签模型的得分优于具有二进制标签的相同模型
我有一个 scikit-learn 模型，它简化了一点，如下所示: clf1 = RandomForestClassifier() clf1.fit(data_training, non_binary

首页

博学

6Ren·AI

商城

machine-learning - 将所有特征置于与目标变量相同的范围内对性能有何影响？