linear-regression - 我们应该如何处理高度相关的特征？-6ren

linear-regression - 我们应该如何处理高度相关的特征？

转载作者：行者123 更新时间：2023-12-04 03:45:11

25

4

在我的数据集中 2 个特征 C1和 C2是高度相关的。我做了以下步骤。您能否让我知道它是否正确且有意义？你有更好的方法吗？
首先我使用线性模型来找到拟合线:
C1=a*C2+b

from sklearn import linear_model

reg=linear_model.LinearRegression()
y_reg = data1['C1']
x_reg = data1['C2']
reg.fit(x_reg2,y_reg2)
a=reg.coef_
b=reg.intercept_

print(a,b)

找到 a 和 b 后，我删除了 C1和 C2从数据集中添加了一个新变量: new=a*C1+b我的下一个问题是我如何理解这条线是否好？

最佳答案

通常，建议避免在数据集中包含相关特征。确实，一组高度相关的特征不会带来额外的信息(或只是很少)，而是会增加算法的复杂度，从而增加出错的风险。根据特征和模型，相关特征可能并不总是会损害模型的性能，但这是一个真正的风险。
您可以将其视为对 Occam's razor 的解释。 : 在性能上没有显着差异，应该首选更简单的模型。在您的情况下，如果性能相似，则更简单的模型是只有 C1 或 C2 而不是两者的模型。
现在你用 a*C1+b 替换 C1 和 C2 时所做的实际上消除了多重共线性，但这对我来说没有多大意义 .与仅保留 C1 相比，我没有看到任何好处:实际上，您用适合匹配的新变量替换了 C1 和 C2 ...... C1!如果线性拟合良好，则几乎没有区别。
特征工程和特征选择应该由基础理论或至少领域知识证明，所以这里有几件事你可以做:

在训练模型之前将 PCA 应用于数据集:这将产生一个新的且不相关的特征集。缺点是如果您需要的话，您将无法用原始特征解释模型的决定。

使用特征选择算法。最好的算法将取决于数据和模型。这里是scikit learn's feature selection algorithms举个例子。

只需将模型的性能与 C1 和 C2 进行比较，然后仅与 C1 和仅 C2 进行比较。然后估计性能上的差异是否值得保留这两个功能(这实际上是应用奥卡姆 Razor 原理)。这可以看作是一种“手动”特征选择算法。

使用领域知识选择要保留的变量:哪个与问题最相关？。如果模型的训练成本太高而无法进行多次实验，则可以这样做。

我还建议您阅读 this thread on data science stack exchange因为它会给你一些关于多重共线性问题的其他意见。我认为这对您来说很有趣，因为它将完成我在这里给出的见解，并帮助您决定如何处理 C1 和 C2。

关于linear-regression - 我们应该如何处理高度相关的特征？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/65302136/

25

4

0

文章推荐： module - 如何在 utop 中加载 .ml 文件及其对应的 .mli 文件？

"RuntimeError: You must train on the training inputs! " When I'm trying to use mini batch in training Guassian Process Regression Model(“RuntimeError：你必须在训练输入上训练！which is the most important part of the Process Regression Model.“)
我已经编写了一段代码来训练Guassian过程回归模型来预测年龄。我已经编写了以下代码，并且运行良好：。但我注意到，每个纪元都输入了相同的数据，我认为这可能会导致过度拟合，所以我想使用Mini Bat
regression - 计算特定特异性值的截止值和灵敏度？
计算多个回归模型后，我想计算灵敏度值和预先指定的特异性值(即 0.99、0.90、0.85 等)的截止值，以找到最佳模型。我已经创建了代码来计算给定截止值(从 0.1 到 0.9)的灵敏度和特异性，但
regression - 可以检查weka中逻辑回归分类器学习的权重吗？
我正在训练 Weka 的逻辑回归分类器，并试图弄清楚幕后发生了什么。我知道我可以使用分类器使用 logistic.distributionForInstance 查看每个实例的置信度分布方法但是有没有
regression - 朴素贝叶斯回归
我想知道是否可以将朴素贝叶斯应用于回归问题，以及该如何解决。我有4096个图像功能和384个文本功能，而且，如果我假设它们之间是独立的，那也不会很糟糕。谁能告诉我如何进行？最佳答案朴素贝叶斯用于字
regression - 如何获得p值的更多数字？
有人知道运行Tobit回归时让Stata显示p值不止三位数的简单方法吗？通常，Stata报告p值为.001或.065，但我希望看到更多数字，例如.0011123或.065320。明确地说，我不想(
regression - 如何在XGBoost回归器中找到模型系数？
在XGBoost回归中预测价格，如何获取系数，模型的截距？像我们在Statsmodel中获得线性回归一样，如何获取模型摘要？见下面的代码 from xgboost import XGBRegress
regression - RSE和MSE有什么区别？
我正在阅读Hastie和Tibshirani撰写的R中的统计学习入门。我遇到了两个概念:RSE和MSE。我的理解是这样的: RSE = sqrt(RSS/N-2) MSE = RSS/N 现在，我正在
regression - 为什么这个模型会失败？
这是数据集 https://gist.github.com/kirkstrobeck/d8b768867890807f9dc9 当使用 Google Prediction API 时，它将从 RUNN
regression - 软件回归测试中不同回归错误的定义是什么？
在对软件进行回归测试时出现 3 个回归错误。 “本地”、“未屏蔽”和“远程”。有谁知道每一个的定义？谢谢最佳答案以防万一像我这样的人需要这个答案: 本地:新编写的代码中出现错误。揭露:新编写的代
regression - 在Python中模拟回归线的数据
如果我有一条回归线和一个 r 平方，是否有一个简单的 numpy (或其他一些 python 库)命令来随机绘制与回归一致的 x 的 y 值？您可以用同样的方式从分布中抽取随机值吗？谢谢! 编辑:我
regression - 普通最小二乘回归给出错误的预测
我正在使用 statsmodels OLS 将一系列点拟合成一条线: import statsmodels.api as sm Y = [1, 2, 3, 4, 5, 6, 7, 8, 9, 11,
regression - kdb 中的线性回归
这就是我构建线性回归的方式，但是当我包含两列以上时，我的代码不起作用。 // Load relevant columns into memory // t:?[`data;enlist(=;`date
linear-regression - 拟合回归后如何使用Seaborn的residplot？
我在 Python 中有一个简单的线性多元回归，如下所示: X_train,X_test,y_train,y_test=train_test_split(x_cols,df['Volume'],tes
regression-testing - 管理回归
我天生就是一个冲动的编码员，并且已经开始在编程中通过艰难的方式学习耐心的美德。我表现不佳的领域之一是在修改现有代码时。如果我没有在我面前列出所有的细节，我总是会错过某些有时会导致倒退的途径。在我阅读“
linear-regression - Java非负多元线性回归库
我正在做一个 Java 项目，我必须计算一个多元线性回归，但我希望得到的参数是非负的。是否有现有的商业友好许可图书馆来做这样的事情？我一直在寻找非负最小二乘库，但没有成功。最佳答案好吧，我找不到任
linear-regression - 权重变化时有效重新计算加权最小二乘回归
关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。想改善这个问题吗？更新问题，使其成为 on-topic对于堆栈溢出。 2年前关闭。 Improve thi
linear-regression - 我们应该如何处理高度相关的特征？
在我的数据集中 2 个特征 C1和 C2是高度相关的。我做了以下步骤。您能否让我知道它是否正确且有意义？你有更好的方法吗？首先我使用线性模型来找到拟合线: C1=a*C2+b from sklear
regression - "mean_squared_error"的负值
我正在使用 scikit 并使用 mean_squared_error 作为 cross_val_score 中模型评估的评分函数。 rms_score = cross_validation.cros
regression - Logit 模型和逻辑回归之间的区别？
我知道这两个模型有不同的方程，但我不确定为什么人们使用 logistic 模型而不是 logit 模型，反之亦然？其背后的主要原因是什么？如果我的响应变量是一个决策变量(是，否)，那么这里哪个模型会更
regression - Julia 混合效应模型中随机斜率的相互作用
LMM 中的随机效应是否有可能相互作用适合 Julia？这会产生错误 model = fit!(lmm(@formula(response ~ 1 + A*B + (1+A*B|sub)), dat

首页

博学

6Ren·AI

商城

linear-regression - 我们应该如何处理高度相关的特征？