- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
当我在 sklearn 中使用 LinearRegression 时,我会这样做
m = 100
X = 6*np.random.rand(m,1)-3
y = 0.5*X**2 + X+2 + np.random.randn(m,1)
lin_reg = LinearRegression()
lin_reg.fit(X,y)
y_pred_1 = lin_reg.predict(X)
y_pred_1 = [_[0] for _ in y_pred_1]
当我绘制 (X,y) 和 (X, y_pred_1) 时,它似乎是正确的。
我想通过以下方式创建最佳拟合线的公式:
y= (lin_reg.coef_)x + lin_reg.intercept_
我手动将值插入到使用 coef_、intercept_ 得到的公式中,并将其与 lin_reg.predict(value) 的预测值进行比较,它们是相同的,所以 lin_reg.predict 实际上使用了我上面制作的公式使用 coef、截距。
我的问题是如何创建简单多项式回归的公式?
我愿意
poly_features = PolynomialFeatures(degree=2, include_bias=False)
X_poly_2 = poly_features.fit_transform(X)
poly_reg_2 = LinearRegression()
poly_reg_2.fit(X_poly_2, y)
然后 poly_reg_2.coef_
给我 array([[0.93189329, 0.43283304]])
和 poly_reg_2.intercept_ = array([2.20637695])
.
因为它是“简单”多项式回归,所以它应该看起来像
y = x^2 + x + b,其中 x 是相同的变量。
来自 poly_reg_2.coef_
哪个是 x^2,哪个不是?
最佳答案
感谢https://www.youtube.com/watch?v=Hwj_9wMXDVo我获得了洞察力并找到了如何解释多项式回归的公式。
所以poly_reg_2.coef_ = array([[0.93189329, 0.43283304]])
你知道简单的线性回归看起来像
y = b + m1x
那么 2 次多项式回归看起来像
y = b + m1x + m2(x^2)
和 3 度:
y = b + m1x + m2(x^2) + m3(x^3)
依此类推...所以对于我的情况,两个系数只是按顺序排列的 m1 和 m2 。
所以最后我的公式变成:
y = b + 0.93189329x + 0.43283304(x^2)。
关于python - sklearn LinearRegression 中的 coef_ 到底是什么?以及如何解释其中的公式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60200398/
我下载了数据。 news = datasets.fetch_20newsgroups(subset='all', categories=['alt.atheism', 'sci.space']) ve
我是机器学习的初学者。这只是一个简单的问题,LinearRegression()中的coef_代表什么?我知道它代表系数,但我不明白这些值,高且正的 coef_ 是否意味着更强的关系? 而且,如果 c
我正在尝试从拟合模型生成预测(使用 scikit-learn,使用 MultiTaskLasso 的简单线性回归)。我假设 coef_ 存储特征的权重。假设有5个标签和200个特征,它在2D中应该是5
我一直在尝试按照 bigdataexaminer 上的教程通过线性回归来拟合这些数据。直到此时一切都运行良好。我从 sklearn 导入了 LinearRegression,并打印出系数的数量就好了。
我正在使用 SVM 分类器 LinearSVM 的 sklearn 线性实现。 我没有直接使用它,而是用 CaliberatedClassifierCV 包装它来获取预测时间内的概率,例如: mode
创建了一个线性回归模型,试图找到权重(系数)和偏差(y截距),从而运行以下代码:- reg.intercept_ reg.coef_ 输出 array([9.41523946, 9.41523946]
问题陈述:在客户订购某些商品(例如: Boot 、运动鞋等)的情况下预测 express 包裹的重量 因此,我拥有的数据框由历史数据组成,其中product_item_categories(例如: B
我正在从事一个文本分类项目,并尝试使用 SVC(kernel= 'linear') 来获取特征重要性。这是我的代码: (我更改了 this post 中的代码) X = df1[features] y
在我的代码中,它引发运行时错误。在这里,我尝试将 RFE 拟合为回归数据。 from sklearn.feature_selection import RFE from sklearn.svm imp
我正在使用 LinearSVC 将文本数据分为 3 类。输入数据是每个单词的 tfidf 分数。我有兴趣看到单词对分类的“贡献”。第一个问题是我可以使用 coef_ 吗?该文件指出: coef_ :
当我在 sklearn 中使用 LinearRegression 时,我会这样做 m = 100 X = 6*np.random.rand(m,1)-3 y = 0.5*X**2 + X+2 + np
当我在 Python 中使用 sklearn 进行岭回归时,coef_ 输出为我提供了一个 2D 数组。根据documentation它是(n_targets,n_features)。 我知道特征就是
下面的代码代表 sklearn 多项式朴素贝叶斯。 import numpy as np from sklearn.naive_bayes import MultinomialNB X = np.ra
scikit-学习 suggests使用 pickle 进行模型持久化。然而,当涉及到不同版本的 scikit-learn 或 python 时,他们注意到 pickle 的局限性。 (另请参阅 th
我想用多项式核 svm 计算原始变量 w,但为此我需要计算 clf.coef_ * clf.support_vectors_。除了 linear 之外,所有内核类型的访问都仅限于 .coef_ - 这
Python3.5 我有一个数据集存储在变量 文件 中,我尝试应用 10 hold 交叉验证和逻辑回归。我正在寻找的是列出 clf.coef_ 平均值的方法。 print(file.head())
我是一名优秀的程序员,十分优秀!