- ubuntu12.04环境下使用kvm ioctl接口实现最简单的虚拟机
- Ubuntu 通过无线网络安装Ubuntu Server启动系统后连接无线网络的方法
- 在Ubuntu上搭建网桥的方法
- ubuntu 虚拟机上网方式及相关配置详解
CFSDN坚持开源创造价值,我们致力于搭建一个资源共享平台,让每一个IT人在这里找到属于你的精彩世界.
这篇CFSDN的博客文章Python实现决策树C4.5算法的示例由作者收集整理,如果你对这篇文章有兴趣,记得点赞哟.
为什么要改进成C4.5算法 。
原理 。
C4.5算法是在ID3算法上的一种改进,它与ID3算法最大的区别就是特征选择上有所不同,一个是基于信息增益比,一个是基于信息增益.
之所以这样做是因为信息增益倾向于选择取值比较多的特征(特征越多,条件熵(特征划分后的类别变量的熵)越小,信息增益就越大);因此在信息增益下面加一个分母,该分母是当前所选特征的熵,注意:这里而不是类别变量的熵了.
这样就构成了新的特征选择准则,叫做信息增益比。为什么加了这样一个分母就会消除ID3算法倾向于选择取值较多的特征呢?
因为特征取值越多,该特征的熵就越大,分母也就越大,所以信息增益比就会减小,而不是像信息增益那样增大了,一定程度消除了算法对特征取值范围的影响.
实现 。
在算法实现上,C4.5算法只是修改了信息增益计算的函数calcShannonEntOfFeature和最优特征选择函数chooseBestFeatureToSplit.
calcShannonEntOfFeature在ID3的calcShannonEnt函数上加了个参数feat,ID3中该函数只用计算类别变量的熵,而calcShannonEntOfFeature可以计算指定特征或者类别变量的熵.
chooseBestFeatureToSplit函数在计算好信息增益后,同时计算了当前特征的熵IV,然后相除得到信息增益比,以最大信息增益比作为最优特征.
在划分数据的时候,有可能出现特征取同一个值,那么该特征的熵为0,同时信息增益也为0(类别变量划分前后一样,因为特征只有一个取值),0/0没有意义,可以跳过该特征.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
|
#coding=utf-8
import
operator
from
math
import
log
import
time
import
os, sys
import
string
def
createDataSet(trainDataFile):
print
trainDataFile
dataSet
=
[]
try
:
fin
=
open
(trainDataFile)
for
line
in
fin:
line
=
line.strip()
cols
=
line.split(
'\t'
)
row
=
[cols[
1
], cols[
2
], cols[
3
], cols[
4
], cols[
5
], cols[
6
], cols[
7
], cols[
8
], cols[
9
], cols[
10
], cols[
0
]]
dataSet.append(row)
#print row
except
:
print
'Usage xxx.py trainDataFilePath'
sys.exit()
labels
=
[
'cip1'
,
'cip2'
,
'cip3'
,
'cip4'
,
'sip1'
,
'sip2'
,
'sip3'
,
'sip4'
,
'sport'
,
'domain'
]
print
'dataSetlen'
,
len
(dataSet)
return
dataSet, labels
#calc shannon entropy of label or feature
def
calcShannonEntOfFeature(dataSet, feat):
numEntries
=
len
(dataSet)
labelCounts
=
{}
for
feaVec
in
dataSet:
currentLabel
=
feaVec[feat]
if
currentLabel
not
in
labelCounts:
labelCounts[currentLabel]
=
0
labelCounts[currentLabel]
+
=
1
shannonEnt
=
0.0
for
key
in
labelCounts:
prob
=
float
(labelCounts[key])
/
numEntries
shannonEnt
-
=
prob
*
log(prob,
2
)
return
shannonEnt
def
splitDataSet(dataSet, axis, value):
retDataSet
=
[]
for
featVec
in
dataSet:
if
featVec[axis]
=
=
value:
reducedFeatVec
=
featVec[:axis]
reducedFeatVec.extend(featVec[axis
+
1
:])
retDataSet.append(reducedFeatVec)
return
retDataSet
def
chooseBestFeatureToSplit(dataSet):
numFeatures
=
len
(dataSet[
0
])
-
1
#last col is label
baseEntropy
=
calcShannonEntOfFeature(dataSet,
-
1
)
bestInfoGainRate
=
0.0
bestFeature
=
-
1
for
i
in
range
(numFeatures):
featList
=
[example[i]
for
example
in
dataSet]
uniqueVals
=
set
(featList)
newEntropy
=
0.0
for
value
in
uniqueVals:
subDataSet
=
splitDataSet(dataSet, i, value)
prob
=
len
(subDataSet)
/
float
(
len
(dataSet))
newEntropy
+
=
prob
*
calcShannonEntOfFeature(subDataSet,
-
1
)
#calc conditional entropy
infoGain
=
baseEntropy
-
newEntropy
iv
=
calcShannonEntOfFeature(dataSet, i)
if
(iv
=
=
0
):
#value of the feature is all same,infoGain and iv all equal 0, skip the feature
continue
infoGainRate
=
infoGain
/
iv
if
infoGainRate > bestInfoGainRate:
bestInfoGainRate
=
infoGainRate
bestFeature
=
i
return
bestFeature
#feature is exhaustive, reture what you want label
def
majorityCnt(classList):
classCount
=
{}
for
vote
in
classList:
if
vote
not
in
classCount.keys():
classCount[vote]
=
0
classCount[vote]
+
=
1
return
max
(classCount)
def
createTree(dataSet, labels):
classList
=
[example[
-
1
]
for
example
in
dataSet]
if
classList.count(classList[
0
])
=
=
len
(classList):
#all data is the same label
return
classList[
0
]
if
len
(dataSet[
0
])
=
=
1
:
#all feature is exhaustive
return
majorityCnt(classList)
bestFeat
=
chooseBestFeatureToSplit(dataSet)
bestFeatLabel
=
labels[bestFeat]
if
(bestFeat
=
=
-
1
):
#特征一样,但类别不一样,即类别与特征不相关,随机选第一个类别做分类结果
return
classList[
0
]
myTree
=
{bestFeatLabel:{}}
del
(labels[bestFeat])
featValues
=
[example[bestFeat]
for
example
in
dataSet]
uniqueVals
=
set
(featValues)
for
value
in
uniqueVals:
subLabels
=
labels[:]
myTree[bestFeatLabel][value]
=
createTree(splitDataSet(dataSet, bestFeat, value),subLabels)
return
myTree
def
main():
if
(
len
(sys.argv) <
3
):
print
'Usage xxx.py trainSet outputTreeFile'
sys.exit()
data,label
=
createDataSet(sys.argv[
1
])
t1
=
time.clock()
myTree
=
createTree(data,label)
t2
=
time.clock()
fout
=
open
(sys.argv[
2
],
'w'
)
fout.write(
str
(myTree))
fout.close()
print
'execute for '
,t2
-
t1
if
__name__
=
=
'__main__'
:
main()
|
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持我.
原文链接:https://www.cnblogs.com/vincent-vg/p/6745275.html 。
最后此篇关于Python实现决策树C4.5算法的示例的文章就讲到这里了,如果你想了解更多关于Python实现决策树C4.5算法的示例的内容请搜索CFSDN的文章或继续浏览相关文章,希望大家以后支持我的博客! 。
背景: 我最近一直在使用 JPA,我为相当大的关系数据库项目生成持久层的轻松程度给我留下了深刻的印象。 我们公司使用大量非 SQL 数据库,特别是面向列的数据库。我对可能对这些数据库使用 JPA 有一
我已经在我的 maven pom 中添加了这些构建配置,因为我希望将 Apache Solr 依赖项与 Jar 捆绑在一起。否则我得到了 SolarServerException: ClassNotF
interface ITurtle { void Fight(); void EatPizza(); } interface ILeonardo : ITurtle {
我希望可用于 Java 的对象/关系映射 (ORM) 工具之一能够满足这些要求: 使用 JPA 或 native SQL 查询获取大量行并将其作为实体对象返回。 允许在行(实体)中进行迭代,并在对当前
好像没有,因为我有实现From for 的代码, 我可以转换 A到 B与 .into() , 但同样的事情不适用于 Vec .into()一个Vec . 要么我搞砸了阻止实现派生的事情,要么这不应该发
在 C# 中,如果 A 实现 IX 并且 B 继承自 A ,是否必然遵循 B 实现 IX?如果是,是因为 LSP 吗?之间有什么区别吗: 1. Interface IX; Class A : IX;
就目前而言,这个问题不适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持,但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开,visit the
我正在阅读标准haskell库的(^)的实现代码: (^) :: (Num a, Integral b) => a -> b -> a x0 ^ y0 | y0 a -> b ->a expo x0
我将把国际象棋游戏表示为 C++ 结构。我认为,最好的选择是树结构(因为在每个深度我们都有几个可能的移动)。 这是一个好的方法吗? struct TreeElement{ SomeMoveType
我正在为用户名数据库实现字符串匹配算法。我的方法采用现有的用户名数据库和用户想要的新用户名,然后检查用户名是否已被占用。如果采用该方法,则该方法应该返回带有数据库中未采用的数字的用户名。 例子: “贾
我正在尝试实现 Breadth-first search algorithm , 为了找到两个顶点之间的最短距离。我开发了一个 Queue 对象来保存和检索对象,并且我有一个二维数组来保存两个给定顶点
我目前正在 ika 中开发我的 Python 游戏,它使用 python 2.5 我决定为 AI 使用 A* 寻路。然而,我发现它对我的需要来说太慢了(3-4 个敌人可能会落后于游戏,但我想供应 4-
我正在寻找 Kademlia 的开源实现C/C++ 中的分布式哈希表。它必须是轻量级和跨平台的(win/linux/mac)。 它必须能够将信息发布到 DHT 并检索它。 最佳答案 OpenDHT是
我在一本书中读到这一行:-“当我们要求 C++ 实现运行程序时,它会通过调用此函数来实现。” 而且我想知道“C++ 实现”是什么意思或具体是什么。帮忙!? 最佳答案 “C++ 实现”是指编译器加上链接
我正在尝试使用分支定界的 C++ 实现这个背包问题。此网站上有一个 Java 版本:Implementing branch and bound for knapsack 我试图让我的 C++ 版本打印
在很多情况下,我需要在 C# 中访问合适的哈希算法,从重写 GetHashCode 到对数据执行快速比较/查找。 我发现 FNV 哈希是一种非常简单/好/快速的哈希算法。但是,我从未见过 C# 实现的
目录 LRU缓存替换策略 核心思想 不适用场景 算法基本实现 算法优化
1. 绪论 在前面文章中提到 空间直角坐标系相互转换 ,测绘坐标转换时,一般涉及到的情况是:两个直角坐标系的小角度转换。这个就是我们经常在测绘数据处理中,WGS-84坐标系、54北京坐标系
在软件开发过程中,有时候我们需要定时地检查数据库中的数据,并在发现新增数据时触发一个动作。为了实现这个需求,我们在 .Net 7 下进行一次简单的演示. PeriodicTimer .
二分查找 二分查找算法,说白了就是在有序的数组里面给予一个存在数组里面的值key,然后将其先和数组中间的比较,如果key大于中间值,进行下一次mid后面的比较,直到找到相等的,就可以得到它的位置。
我是一名优秀的程序员,十分优秀!