- ubuntu12.04环境下使用kvm ioctl接口实现最简单的虚拟机
- Ubuntu 通过无线网络安装Ubuntu Server启动系统后连接无线网络的方法
- 在Ubuntu上搭建网桥的方法
- ubuntu 虚拟机上网方式及相关配置详解
CFSDN坚持开源创造价值,我们致力于搭建一个资源共享平台,让每一个IT人在这里找到属于你的精彩世界.
这篇CFSDN的博客文章Python scikit-learn 做线性回归的示例代码由作者收集整理,如果你对这篇文章有兴趣,记得点赞哟.
1、概述 。
机器学习算法在近几年大数据点燃的热火熏陶下已经变得被人所“熟知”,就算不懂得其中各算法理论,叫你喊上一两个著名算法的名字,你也能昂首挺胸脱口而出。当然了,算法之林虽大,但能者还是有限,能适应某些环境并取得较好效果的算法会脱颖而出,而表现平平者则被历史所淡忘。随着机器学习社区的发展和实践验证,这群脱颖而出者也逐渐被人所认可和青睐,同时获得了更多社区力量的支持、改进和推广.
以最广泛的分类算法为例,大致可以分为线性和非线性两大派别。线性算法有著名的逻辑回归、朴素贝叶斯、最大熵等,非线性算法有随机森林、决策树、神经网络、核机器等等。线性算法举的大旗是训练和预测的效率比较高,但最终效果对特征的依赖程度较高,需要数据在特征层面上是线性可分的。因此,使用线性算法需要在特征工程上下不少功夫,尽量对特征进行选择、变换或者组合等使得特征具有区分性。而非线性算法则牛逼点,可以建模复杂的分类面,从而能更好的拟合数据.
那在我们选择了特征的基础上,哪个机器学习算法能取得更好的效果呢?谁也不知道。实践是检验哪个好的不二标准。那难道要苦逼到写五六个机器学习的代码吗?No,机器学习社区的力量是强大的,码农界的共识是不重复造轮子!因此,对某些较为成熟的算法,总有某些优秀的库可以直接使用,省去了大伙调研的大部分时间.
基于目前使用python较多,而python界中远近闻名的机器学习库要数scikit-learn莫属了。这个库优点很多。简单易用,接口抽象得非常好,而且文档支持实在感人。本文中,我们可以封装其中的很多机器学习算法,然后进行一次性测试,从而便于分析取优。当然了,针对具体算法,超参调优也非常重要.
2、Scikit-learn的python实践 。
本篇文章利用线性回归算法预测波士顿的房价。波士顿房价数据集包含波士顿郊区住房价值的信息.
第一步:Python库导入 。
1
2
3
4
5
|
%
matplotlib inline
import
numpy as np
import
pandas as pd
import
matplotlib.pyplot as plt
import
sklearn
|
第二步:数据获取和理解 。
波士顿数据集是scikit-learn的内置数据集,可以直接拿来使用.
1
2
|
from
sklearn.datasets
import
load_boston
boston
=
load_boston()
|
1
|
print
(boston.keys())
|
dict_keys([‘data', ‘target', ‘feature_names', ‘DESCR']) 。
1
|
print
(boston.data.shape)
|
(506, 13) 。
1
|
print
(boston.feature_names)
|
[‘CRIM' ‘ZN' ‘INDUS' ‘CHAS' ‘NOX' ‘RM' ‘AGE' ‘DIS' ‘RAD' ‘TAX' ‘PTRATIO''B' ‘LSTAT'] 。
结论:波士顿数据集506个样本,14个特征.
1
|
print
(boston.DESCR)
|
1
2
|
bos
=
pd.DataFrame(boston.data)
print
(bos.head())
|
1
2
3
4
5
6
7
8
9
10
11
12
|
0 1 2 3 4 5 6 7 8 9 10 \
0 0.00632 18.0 2.31 0.0 0.538 6.575 65.2 4.0900 1.0 296.0 15.3
1 0.02731 0.0 7.07 0.0 0.469 6.421 78.9 4.9671 2.0 242.0 17.8
2 0.02729 0.0 7.07 0.0 0.469 7.185 61.1 4.9671 2.0 242.0 17.8
3 0.03237 0.0 2.18 0.0 0.458 6.998 45.8 6.0622 3.0 222.0 18.7
4 0.06905 0.0 2.18 0.0 0.458 7.147 54.2 6.0622 3.0 222.0 18.7
11 12
0 396.90 4.98
1 396.90 9.14
2 392.83 4.03
3 394.63 2.94
4 396.90 5.33
|
1
2
|
bos.columns
=
boston.feature_names
print
(bos.head())
|
1
|
print
(boston.target[:
5
])
|
1
|
bos[
'PRICE'
]
=
boston.target
|
1
|
bos.head()
|
第三步:数据模型构建——线性回归 。
1
2
3
4
|
from
sklearn.linear_model
import
LinearRegression
X
=
bos.drop(
'PRICE'
, axis
=
1
)
lm
=
LinearRegression()
lm
|
1
|
lm.fit(X, bos.PRICE)
|
1
2
|
print
(
'线性回归算法w值:'
, lm.coef_)
print
(
'线性回归算法b值: '
, lm.intercept_)
|
1
2
3
4
5
6
7
|
import
matplotlib.font_manager as fm
myfont
=
fm.FontProperties(fname
=
'C:/Windows/Fonts/msyh.ttc'
)
plt.scatter(bos.RM, bos.PRICE)
plt.xlabel(u
'住宅平均房间数'
, fontproperties
=
myfont)
plt.ylabel(u
'房屋价格'
, fontproperties
=
myfont)
plt.title(u
'RM与PRICE的关系'
, fontproperties
=
myfont)
plt.show()
|
第四步:数据模型应用——预测房价 。
1
|
lm.predict(X)[
0
:
5
]
|
array([ 30.00821269, 25.0298606 , 30.5702317 , 28.60814055, 27.94288232]) 。
1
2
|
mse
=
np.mean((bos.PRICE
-
lm.predict(X))
*
*
2
)
print
(mse)
|
21.897779217687486 。
总结 。
1 使用.DESCR探索波士顿数据集,业务目标是预测波士顿郊区住房的房价; 。
2 使用scikit-learn针对整个数据集拟合线性回归模型,并计算均方误差.
思考环节 。
1 对数据集分割成训练数据集和测试数据集 。
2 训练数据集训练线性回归模型,利用线性回归模型对测试数据集进行预测 。
3 计算训练模型的MSE和测试数据集预测结果的MSE 。
4 绘制测试数据集的残差图 。
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持我.
原文链接:http://shujuren.org/article/510.html 。
最后此篇关于Python scikit-learn 做线性回归的示例代码的文章就讲到这里了,如果你想了解更多关于Python scikit-learn 做线性回归的示例代码的内容请搜索CFSDN的文章或继续浏览相关文章,希望大家以后支持我的博客! 。
我正在处理一组标记为 160 个组的 173k 点。我想通过合并最接近的(到 9 或 10 个组)来减少组/集群的数量。我搜索过 sklearn 或类似的库,但没有成功。 我猜它只是通过 knn 聚类
我有一个扁平数字列表,这些数字逻辑上以 3 为一组,其中每个三元组是 (number, __ignored, flag[0 or 1]),例如: [7,56,1, 8,0,0, 2,0,0, 6,1,
我正在使用 pipenv 来管理我的包。我想编写一个 python 脚本来调用另一个使用不同虚拟环境(VE)的 python 脚本。 如何运行使用 VE1 的 python 脚本 1 并调用另一个 p
假设我有一个文件 script.py 位于 path = "foo/bar/script.py"。我正在寻找一种在 Python 中通过函数 execute_script() 从我的主要 Python
这听起来像是谜语或笑话,但实际上我还没有找到这个问题的答案。 问题到底是什么? 我想运行 2 个脚本。在第一个脚本中,我调用另一个脚本,但我希望它们继续并行,而不是在两个单独的线程中。主要是我不希望第
我有一个带有 python 2.5.5 的软件。我想发送一个命令,该命令将在 python 2.7.5 中启动一个脚本,然后继续执行该脚本。 我试过用 #!python2.7.5 和http://re
我在 python 命令行(使用 python 2.7)中,并尝试运行 Python 脚本。我的操作系统是 Windows 7。我已将我的目录设置为包含我所有脚本的文件夹,使用: os.chdir("
剧透:部分解决(见最后)。 以下是使用 Python 嵌入的代码示例: #include int main(int argc, char** argv) { Py_SetPythonHome
假设我有以下列表,对应于及时的股票价格: prices = [1, 3, 7, 10, 9, 8, 5, 3, 6, 8, 12, 9, 6, 10, 13, 8, 4, 11] 我想确定以下总体上最
所以我试图在选择某个单选按钮时更改此框架的背景。 我的框架位于一个类中,并且单选按钮的功能位于该类之外。 (这样我就可以在所有其他框架上调用它们。) 问题是每当我选择单选按钮时都会出现以下错误: co
我正在尝试将字符串与 python 中的正则表达式进行比较,如下所示, #!/usr/bin/env python3 import re str1 = "Expecting property name
考虑以下原型(prototype) Boost.Python 模块,该模块从单独的 C++ 头文件中引入类“D”。 /* file: a/b.cpp */ BOOST_PYTHON_MODULE(c)
如何编写一个程序来“识别函数调用的行号?” python 检查模块提供了定位行号的选项,但是, def di(): return inspect.currentframe().f_back.f_l
我已经使用 macports 安装了 Python 2.7,并且由于我的 $PATH 变量,这就是我输入 $ python 时得到的变量。然而,virtualenv 默认使用 Python 2.6,除
我只想问如何加快 python 上的 re.search 速度。 我有一个很长的字符串行,长度为 176861(即带有一些符号的字母数字字符),我使用此函数测试了该行以进行研究: def getExe
list1= [u'%app%%General%%Council%', u'%people%', u'%people%%Regional%%Council%%Mandate%', u'%ppp%%Ge
这个问题在这里已经有了答案: Is it Pythonic to use list comprehensions for just side effects? (7 个答案) 关闭 4 个月前。 告
我想用 Python 将两个列表组合成一个列表,方法如下: a = [1,1,1,2,2,2,3,3,3,3] b= ["Sun", "is", "bright", "June","and" ,"Ju
我正在运行带有最新 Boost 发行版 (1.55.0) 的 Mac OS X 10.8.4 (Darwin 12.4.0)。我正在按照说明 here构建包含在我的发行版中的教程 Boost-Pyth
学习 Python,我正在尝试制作一个没有任何第 3 方库的网络抓取工具,这样过程对我来说并没有简化,而且我知道我在做什么。我浏览了一些在线资源,但所有这些都让我对某些事情感到困惑。 html 看起来
我是一名优秀的程序员,十分优秀!