- ubuntu12.04环境下使用kvm ioctl接口实现最简单的虚拟机
- Ubuntu 通过无线网络安装Ubuntu Server启动系统后连接无线网络的方法
- 在Ubuntu上搭建网桥的方法
- ubuntu 虚拟机上网方式及相关配置详解
CFSDN坚持开源创造价值,我们致力于搭建一个资源共享平台,让每一个IT人在这里找到属于你的精彩世界.
这篇CFSDN的博客文章python实现AdaBoost算法的示例由作者收集整理,如果你对这篇文章有兴趣,记得点赞哟.
代码 。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
|
'''
数据集:Mnist
训练集数量:60000(实际使用:10000)
测试集数量:10000(实际使用:1000)
层数:40
------------------------------
运行结果:
正确率:97%
运行时长:65m
'''
import
time
import
numpy as np
def
loadData(fileName):
'''
加载文件
:param fileName:要加载的文件路径
:return: 数据集和标签集
'''
# 存放数据及标记
dataArr
=
[]
labelArr
=
[]
# 读取文件
fr
=
open
(fileName)
# 遍历文件中的每一行
for
line
in
fr.readlines():
# 获取当前行,并按“,”切割成字段放入列表中
# strip:去掉每行字符串首尾指定的字符(默认空格或换行符)
# split:按照指定的字符将字符串切割成每个字段,返回列表形式
curLine
=
line.strip().split(
','
)
# 将每行中除标记外的数据放入数据集中(curLine[0]为标记信息)
# 在放入的同时将原先字符串形式的数据转换为整型
# 此外将数据进行了二值化处理,大于128的转换成1,小于的转换成0,方便后续计算
dataArr.append([
int
(
int
(num) >
128
)
for
num
in
curLine[
1
:]])
# 将标记信息放入标记集中
# 放入的同时将标记转换为整型
# 转换成二分类任务
# 标签0设置为1,反之为-1
if
int
(curLine[
0
])
=
=
0
:
labelArr.append(
1
)
else
:
labelArr.append(
-
1
)
# 返回数据集和标记
return
dataArr, labelArr
def
calc_e_Gx(trainDataArr, trainLabelArr, n, div, rule, D):
'''
计算分类错误率
:param trainDataArr:训练数据集数字
:param trainLabelArr: 训练标签集数组
:param n: 要操作的特征
:param div:划分点
:param rule:正反例标签
:param D:权值分布D
:return:预测结果, 分类误差率
'''
# 初始化分类误差率为0
e
=
0
# 将训练数据矩阵中特征为n的那一列单独剥出来做成数组。因为其他元素我们并不需要,
# 直接对庞大的训练集进行操作的话会很慢
x
=
trainDataArr[:, n]
# 同样将标签也转换成数组格式,x和y的转换只是单纯为了提高运行速度
# 测试过相对直接操作而言性能提升很大
y
=
trainLabelArr
predict
=
[]
# 依据小于和大于的标签依据实际情况会不同,在这里直接进行设置
if
rule
=
=
'LisOne'
:
L
=
1
H
=
-
1
else
:
L
=
-
1
H
=
1
# 遍历所有样本的特征m
for
i
in
range
(trainDataArr.shape[
0
]):
if
x[i] < div:
# 如果小于划分点,则预测为L
# 如果设置小于div为1,那么L就是1,
# 如果设置小于div为-1,L就是-1
predict.append(L)
# 如果预测错误,分类错误率要加上该分错的样本的权值(8.1式)
if
y[i] !
=
L:
e
+
=
D[i]
elif
x[i] >
=
div:
# 与上面思想一样
predict.append(H)
if
y[i] !
=
H:
e
+
=
D[i]
# 返回预测结果和分类错误率e
# 预测结果其实是为了后面做准备的,在算法8.1第四步式8.4中exp内部有个Gx,要用在那个地方
# 以此来更新新的D
return
np.array(predict), e
def
createSigleBoostingTree(trainDataArr, trainLabelArr, D):
'''
创建单层提升树
:param trainDataArr:训练数据集数组
:param trainLabelArr: 训练标签集数组
:param D: 算法8.1中的D
:return: 创建的单层提升树
'''
# 获得样本数目及特征数量
m, n
=
np.shape(trainDataArr)
# 单层树的字典,用于存放当前层提升树的参数
# 也可以认为该字典代表了一层提升树
sigleBoostTree
=
{}
# 初始化分类误差率,分类误差率在算法8.1步骤(2)(b)有提到
# 误差率最高也只能100%,因此初始化为1
sigleBoostTree[
'e'
]
=
1
# 对每一个特征进行遍历,寻找用于划分的最合适的特征
for
i
in
range
(n):
# 因为特征已经经过二值化,只能为0和1,因此分切分时分为-0.5, 0.5, 1.5三挡进行切割
for
div
in
[
-
0.5
,
0.5
,
1.5
]:
# 在单个特征内对正反例进行划分时,有两种情况:
# 可能是小于某值的为1,大于某值得为-1,也可能小于某值得是-1,反之为1
# 因此在寻找最佳提升树的同时对于两种情况也需要遍历运行
# LisOne:Low is one:小于某值得是1
# HisOne:High is one:大于某值得是1
for
rule
in
[
'LisOne'
,
'HisOne'
]:
# 按照第i个特征,以值div进行切割,进行当前设置得到的预测和分类错误率
Gx, e
=
calc_e_Gx(trainDataArr, trainLabelArr, i, div, rule, D)
# 如果分类错误率e小于当前最小的e,那么将它作为最小的分类错误率保存
if
e < sigleBoostTree[
'e'
]:
sigleBoostTree[
'e'
]
=
e
# 同时也需要存储最优划分点、划分规则、预测结果、特征索引
# 以便进行D更新和后续预测使用
sigleBoostTree[
'div'
]
=
div
sigleBoostTree[
'rule'
]
=
rule
sigleBoostTree[
'Gx'
]
=
Gx
sigleBoostTree[
'feature'
]
=
i
# 返回单层的提升树
return
sigleBoostTree
def
createBosstingTree(trainDataList, trainLabelList, treeNum
=
50
):
'''
创建提升树
创建算法依据“8.1.2 AdaBoost算法” 算法8.1
:param trainDataList:训练数据集
:param trainLabelList: 训练测试集
:param treeNum: 树的层数
:return: 提升树
'''
# 将数据和标签转化为数组形式
trainDataArr
=
np.array(trainDataList)
trainLabelArr
=
np.array(trainLabelList)
# 没增加一层数后,当前最终预测结果列表
finallpredict
=
[
0
]
*
len
(trainLabelArr)
# 获得训练集数量以及特征个数
m, n
=
np.shape(trainDataArr)
# 依据算法8.1步骤(1)初始化D为1/N
D
=
[
1
/
m]
*
m
# 初始化提升树列表,每个位置为一层
tree
=
[]
# 循环创建提升树
for
i
in
range
(treeNum):
# 得到当前层的提升树
curTree
=
createSigleBoostingTree(trainDataArr, trainLabelArr, D)
# 根据式8.2计算当前层的alpha
alpha
=
1
/
2
*
np.log((
1
-
curTree[
'e'
])
/
curTree[
'e'
])
# 获得当前层的预测结果,用于下一步更新D
Gx
=
curTree[
'Gx'
]
# 依据式8.4更新D
# 考虑到该式每次只更新D中的一个w,要循环进行更新知道所有w更新结束会很复杂(其实
# 不是时间上的复杂,只是让人感觉每次单独更新一个很累),所以该式以向量相乘的形式,
# 一个式子将所有w全部更新完。
# 该式需要线性代数基础,如果不太熟练建议补充相关知识,当然了,单独更新w也一点问题
# 没有
# np.multiply(trainLabelArr, Gx):exp中的y*Gm(x),结果是一个行向量,内部为yi*Gm(xi)
# np.exp(-1 * alpha * np.multiply(trainLabelArr, Gx)):上面求出来的行向量内部全体
# 成员再乘以-αm,然后取对数,和书上式子一样,只不过书上式子内是一个数,这里是一个向量
# D是一个行向量,取代了式中的wmi,然后D求和为Zm
# 书中的式子最后得出来一个数w,所有数w组合形成新的D
# 这里是直接得到一个向量,向量内元素是所有的w
# 本质上结果是相同的
D
=
np.multiply(D, np.exp(
-
1
*
alpha
*
np.multiply(trainLabelArr, Gx)))
/
sum
(D)
# 在当前层参数中增加alpha参数,预测的时候需要用到
curTree[
'alpha'
]
=
alpha
# 将当前层添加到提升树索引中。
tree.append(curTree)
# -----以下代码用来辅助,可以去掉---------------
# 根据8.6式将结果加上当前层乘以α,得到目前的最终输出预测
finallpredict
+
=
alpha
*
Gx
# 计算当前最终预测输出与实际标签之间的误差
error
=
sum
([
1
for
i
in
range
(
len
(trainDataList))
if
np.sign(finallpredict[i]) !
=
trainLabelArr[i]])
# 计算当前最终误差率
finallError
=
error
/
len
(trainDataList)
# 如果误差为0,提前退出即可,因为没有必要再计算算了
if
finallError
=
=
0
:
return
tree
# 打印一些信息
print
(
'iter:%d:%d, sigle error:%.4f, finall error:%.4f'
%
(i, treeNum, curTree[
'e'
], finallError))
# 返回整个提升树
return
tree
def
predict(x, div, rule, feature):
'''
输出单独层预测结果
:param x: 预测样本
:param div: 划分点
:param rule: 划分规则
:param feature: 进行操作的特征
:return:
'''
# 依据划分规则定义小于及大于划分点的标签
if
rule
=
=
'LisOne'
:
L
=
1
H
=
-
1
else
:
L
=
-
1
H
=
1
# 判断预测结果
if
x[feature] < div:
return
L
else
:
return
H
def
test(testDataList, testLabelList, tree):
'''
测试
:param testDataList:测试数据集
:param testLabelList: 测试标签集
:param tree: 提升树
:return: 准确率
'''
# 错误率计数值
errorCnt
=
0
# 遍历每一个测试样本
for
i
in
range
(
len
(testDataList)):
# 预测结果值,初始为0
result
=
0
# 依据算法8.1式8.6
# 预测式子是一个求和式,对于每一层的结果都要进行一次累加
# 遍历每层的树
for
curTree
in
tree:
# 获取该层参数
div
=
curTree[
'div'
]
rule
=
curTree[
'rule'
]
feature
=
curTree[
'feature'
]
alpha
=
curTree[
'alpha'
]
# 将当前层结果加入预测中
result
+
=
alpha
*
predict(testDataList[i], div, rule, feature)
# 预测结果取sign值,如果大于0 sign为1,反之为0
if
np.sign(result) !
=
testLabelList[i]:
errorCnt
+
=
1
# 返回准确率
return
1
-
errorCnt
/
len
(testDataList)
if
__name__
=
=
'__main__'
:
# 开始时间
start
=
time.time()
# 获取训练集
print
(
'start read transSet'
)
trainDataList, trainLabelList
=
loadData(
'../Mnist/mnist_train.csv'
)
# 获取测试集
print
(
'start read testSet'
)
testDataList, testLabelList
=
loadData(
'../Mnist/mnist_test.csv'
)
# 创建提升树
print
(
'start init train'
)
tree
=
createBosstingTree(trainDataList[:
10000
], trainLabelList[:
10000
],
40
)
# 测试
print
(
'start to test'
)
accuracy
=
test(testDataList[:
1000
], testLabelList[:
1000
], tree)
print
(
'the accuracy is:%d'
%
(accuracy
*
100
),
'%'
)
# 结束时间
end
=
time.time()
print
(
'time span:'
, end
-
start)
|
程序运行结果 。
start read transSet start read testSet start init train iter:0:40, sigle error:0.0804, finall error:0.0804 iter:1:40, sigle error:0.1448, finall error:0.0804 iter:2:40, sigle error:0.1362, finall error:0.0585 iter:3:40, sigle error:0.1864, finall error:0.0667 iter:4:40, sigle error:0.2249, finall error:0.0474 iter:5:40, sigle error:0.2634, finall error:0.0437 iter:6:40, sigle error:0.2626, finall error:0.0377 iter:7:40, sigle error:0.2935, finall error:0.0361 iter:8:40, sigle error:0.3230, finall error:0.0333 iter:9:40, sigle error:0.3034, finall error:0.0361 iter:10:40, sigle error:0.3375, finall error:0.0325 iter:11:40, sigle error:0.3364, finall error:0.0340 iter:12:40, sigle error:0.3473, finall error:0.0309 iter:13:40, sigle error:0.3006, finall error:0.0294 iter:14:40, sigle error:0.3267, finall error:0.0275 iter:15:40, sigle error:0.3584, finall error:0.0288 iter:16:40, sigle error:0.3492, finall error:0.0257 iter:17:40, sigle error:0.3506, finall error:0.0256 iter:18:40, sigle error:0.3665, finall error:0.0240 iter:19:40, sigle error:0.3769, finall error:0.0251 iter:20:40, sigle error:0.3828, finall error:0.0213 iter:21:40, sigle error:0.3733, finall error:0.0229 iter:22:40, sigle error:0.3785, finall error:0.0218 iter:23:40, sigle error:0.3867, finall error:0.0219 iter:24:40, sigle error:0.3850, finall error:0.0208 iter:25:40, sigle error:0.3823, finall error:0.0201 iter:26:40, sigle error:0.3825, finall error:0.0204 iter:27:40, sigle error:0.3874, finall error:0.0188 iter:28:40, sigle error:0.3952, finall error:0.0186 iter:29:40, sigle error:0.4018, finall error:0.0193 iter:30:40, sigle error:0.3889, finall error:0.0177 iter:31:40, sigle error:0.3939, finall error:0.0183 iter:32:40, sigle error:0.3838, finall error:0.0182 iter:33:40, sigle error:0.4021, finall error:0.0171 iter:34:40, sigle error:0.4119, finall error:0.0164 iter:35:40, sigle error:0.4093, finall error:0.0164 iter:36:40, sigle error:0.4135, finall error:0.0167 iter:37:40, sigle error:0.4099, finall error:0.0171 iter:38:40, sigle error:0.3871, finall error:0.0163 iter:39:40, sigle error:0.4085, finall error:0.0154 start to test the accuracy is:97 % time span: 3777.730945825577 。
以上就是python实现AdaBoost算法的示例的详细内容,更多关于python实现AdaBoost算法的资料请关注我其它相关文章! 。
原文链接:https://www.cnblogs.com/chenxiangzhen/p/10413307.html 。
最后此篇关于python实现AdaBoost算法的示例的文章就讲到这里了,如果你想了解更多关于python实现AdaBoost算法的示例的内容请搜索CFSDN的文章或继续浏览相关文章,希望大家以后支持我的博客! 。
我正在运行 3 个不同的模型(随机森林、梯度提升、Ada Boost)和基于这 3 个模型的模型集合。 我设法将 SHAP 用于 GB 和 RF,但不适用于 ADA,但出现以下错误: Exceptio
我一直想知道当它有错误率(完美分类)时,alpha(弱分类器的权重)的值应该是多少,因为 alpha 的算法是 (0.5) * Math.log(((1 - errorRate)/errorRate)
我是一个非技术人员,正在尝试实现图像分类。在本文中,我遇到了 ADA Boost 算法,该算法是在视频关键帧的“特征包”步骤之后实现的。有人可以通俗地解释一下 ADA Boost 的作用以及它的输入和
我正在尝试使用 openCV 库训练一个 adaboost 分类器,用于视觉行人检测。我发现 adaboost 允许选择最相关的特征,这意味着,如果我从图像中获取 50.000 个特征,然后使用它们来
使用 OpenCV 后 boosting我正在尝试实现我自己的 Adaboost 算法版本(查看 here、here 和 the original paper 以获得一些引用)。 通过阅读所有 Mat
我正在使用 Adaboost 来解决分类问题。我们可以做到以下几点: ens = fitensemble(X, Y, 'AdaBoostM1', 100, 'Tree') 现在“树”是学习器,我们可以
我已经实现了 AdaBoost 提升算法的一个版本,我在其中使用决策树桩作为弱学习器。然而,我经常发现,在训练 AdaBoost 算法后,会创建一系列弱学习器,使得该系列在整个集合中重复出现。例如,经
虽然最初不是这样构想的,但标准的Adaboost算法相当于使用指数损失函数进行前向阶段加性模型估计。也就是说,给定一些弱分类器 c1,...,cM 和样本点 x1,...,xN 算法得出的权重: 设置
有没有人对如何在 python 中实现 AdaBoost (Boostexter) 算法有一些想法? 干杯! 最佳答案 看起来好像 sdpy项目有一个 AdaBoost 实现。具体看sdpy/cs/m
我正在尝试通过以下伪代码在 Python 中实现 Adaboost M1: 我已经取得了一些进展,但是,我的“错误预测”数量并没有减少。 我检查了我的权重更新函数,它似乎正确更新了权重。 错误可能出现
就目前情况而言,这个问题不太适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持,但这个问题可能会引发辩论、争论、民意调查或扩展讨论。如果您觉得这个问题可以改进并可能重新开放,visit
我为一个项目实现了 Adaboost,但我不确定我是否正确理解了 adaboost。这是我实现的,请告诉我它是否正确。 我的弱分类器是 8 个不同的神经网络。经过全面训练后,这些预测的准确率都在 70
我已经实现了 AdaBoost 序列算法,目前我正在尝试基于 P. Viola 和 M. Jones 原始论文实现所谓的 Cascaded AdaBoost。不幸的是,我对调整一个阶段的阈值有一些疑问
我正在按照 Viola-Jones 中的描述实现 AdaBoost我自己的启蒙论文。在对算法进行单元测试的过程中,我发现了一些奇怪的行为。这可能只是算法对 jar 装数据的作用很奇怪,或者我可能遗漏了
我一直在努力理解 AdaBoost algorithm没有太大的成功。我正在努力理解 Viola Jones paper on Face Detection举个例子。 您能否用通俗易懂的语言解释 Ad
我想使用 AdaBoost 从大量(~100k)中选择一组好的特征。 AdaBoost 的工作原理是遍历特征集并根据它们的执行情况添加特征。它选择在被现有特征集错误分类的样本上表现良好的特征。 我目前
按照目前的情况,这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持,但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开,visit the
在python中实现的adaboost算法究竟是如何为每个特征分配特征重要性的?我将它用于特征选择,我的模型在基于 feature_importance_ 的值应用特征选择时表现更好。 最佳答案 fe
我正在实现 sklearn AdaBoostClassifier,并绘制了 estimator_errors_,它表示增强型集成中每个估计器的分类误差。 这是情节: 我有几个问题:1. 是测试集还是训
AdaBoost 算法是否有流行且稳定的 C# 库?除了经典的 AdaBoost(例如 GentleBoost、LogitBoost 等)之外,这样的库是否包含不同风格的提升? 最佳答案 OpenCV
我是一名优秀的程序员,十分优秀!