- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
在我的数据集中 2 个特征 C1
和 C2
是高度相关的。我做了以下步骤。您能否让我知道它是否正确且有意义?你有更好的方法吗?
首先我使用线性模型来找到拟合线:
C1=a*C2+b
from sklearn import linear_model
reg=linear_model.LinearRegression()
y_reg = data1['C1']
x_reg = data1['C2']
reg.fit(x_reg2,y_reg2)
a=reg.coef_
b=reg.intercept_
print(a,b)
找到 a 和 b 后,我删除了
C1
和
C2
从数据集中添加了一个新变量:
new=a*C1+b
我的下一个问题是我如何理解这条线是否好?
最佳答案
通常,建议避免在数据集中包含相关特征。确实,一组高度相关的特征不会带来额外的信息(或只是很少),而是会增加算法的复杂度,从而增加出错的风险。根据特征和模型,相关特征可能并不总是会损害模型的性能,但这是一个真正的风险。
您可以将其视为对 Occam's razor 的解释。 : 在性能上没有显着差异,应该首选更简单的模型。在您的情况下,如果性能相似,则更简单的模型是只有 C1 或 C2 而不是两者的模型。
现在你用 a*C1+b 替换 C1 和 C2 时所做的实际上消除了多重共线性,但这对我来说没有多大意义 .与仅保留 C1 相比,我没有看到任何好处:实际上,您用适合匹配的新变量替换了 C1 和 C2 ...... C1!如果线性拟合良好,则几乎没有区别。
特征工程和特征选择应该由基础理论或至少领域知识证明,所以这里有几件事你可以做:
关于linear-regression - 我们应该如何处理高度相关的特征?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/65302136/
我已经编写了一段代码来训练Guassian过程回归模型来预测年龄。我已经编写了以下代码,并且运行良好:。但我注意到,每个纪元都输入了相同的数据,我认为这可能会导致过度拟合,所以我想使用Mini Bat
计算多个回归模型后,我想计算灵敏度值和预先指定的特异性值(即 0.99、0.90、0.85 等)的截止值,以找到最佳模型。我已经创建了代码来计算给定截止值(从 0.1 到 0.9)的灵敏度和特异性,但
我正在训练 Weka 的逻辑回归分类器,并试图弄清楚幕后发生了什么。我知道我可以使用分类器使用 logistic.distributionForInstance 查看每个实例的置信度分布方法但是有没有
我想知道是否可以将朴素贝叶斯应用于回归问题,以及该如何解决。我有4096个图像功能和384个文本功能,而且,如果我假设它们之间是独立的,那也不会很糟糕。谁能告诉我如何进行? 最佳答案 朴素贝叶斯用于字
有人知道运行Tobit回归时让Stata显示p值不止三位数的简单方法吗? 通常,Stata报告p值为.001或.065,但我希望看到更多数字,例如.0011123或.065320。 明确地说,我不想(
在XGBoost回归中预测价格,如何获取系数,模型的截距?像我们在Statsmodel中获得线性回归一样,如何获取模型摘要? 见下面的代码 from xgboost import XGBRegress
我正在阅读Hastie和Tibshirani撰写的R中的统计学习入门。我遇到了两个概念:RSE和MSE。我的理解是这样的: RSE = sqrt(RSS/N-2) MSE = RSS/N 现在,我正在
这是数据集 https://gist.github.com/kirkstrobeck/d8b768867890807f9dc9 当使用 Google Prediction API 时,它将从 RUNN
在对软件进行回归测试时出现 3 个回归错误。 “本地”、“未屏蔽”和“远程”。有谁知道每一个的定义?谢谢 最佳答案 以防万一像我这样的人需要这个答案: 本地:新编写的代码中出现错误。 揭露:新编写的代
如果我有一条回归线和一个 r 平方,是否有一个简单的 numpy (或其他一些 python 库)命令来随机绘制与回归一致的 x 的 y 值?您可以用同样的方式从分布中抽取随机值吗? 谢谢! 编辑:我
我正在使用 statsmodels OLS 将一系列点拟合成一条线: import statsmodels.api as sm Y = [1, 2, 3, 4, 5, 6, 7, 8, 9, 11,
这就是我构建线性回归的方式,但是当我包含两列以上时,我的代码不起作用。 // Load relevant columns into memory // t:?[`data;enlist(=;`date
我在 Python 中有一个简单的线性多元回归,如下所示: X_train,X_test,y_train,y_test=train_test_split(x_cols,df['Volume'],tes
我天生就是一个冲动的编码员,并且已经开始在编程中通过艰难的方式学习耐心的美德。我表现不佳的领域之一是在修改现有代码时。如果我没有在我面前列出所有的细节,我总是会错过某些有时会导致倒退的途径。在我阅读“
我正在做一个 Java 项目,我必须计算一个多元线性回归,但我希望得到的参数是非负的。是否有现有的商业友好许可图书馆来做这样的事情?我一直在寻找非负最小二乘库,但没有成功。 最佳答案 好吧,我找不到任
关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。 想改善这个问题吗?更新问题,使其成为 on-topic对于堆栈溢出。 2年前关闭。 Improve thi
在我的数据集中 2 个特征 C1和 C2是高度相关的。我做了以下步骤。您能否让我知道它是否正确且有意义?你有更好的方法吗? 首先我使用线性模型来找到拟合线: C1=a*C2+b from sklear
我正在使用 scikit 并使用 mean_squared_error 作为 cross_val_score 中模型评估的评分函数。 rms_score = cross_validation.cros
我知道这两个模型有不同的方程,但我不确定为什么人们使用 logistic 模型而不是 logit 模型,反之亦然?其背后的主要原因是什么?如果我的响应变量是一个决策变量(是,否),那么这里哪个模型会更
LMM 中的随机效应是否有可能相互作用适合 Julia? 这会产生错误 model = fit!(lmm(@formula(response ~ 1 + A*B + (1+A*B|sub)), dat
我是一名优秀的程序员,十分优秀!