- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我正在阅读 Machine Learning In Action
并浏览决策树章节。我知道决策树的构建使得拆分数据集为您提供了一种构建分支和叶子的方法。这会在树的顶部为您提供更有可能的信息,并限制您需要做出的决定的数量。
书中展示了一个确定数据集香农熵的函数:
def calcShannonEnt(dataSet):
numEntries = len(dataSet)
labelCounts = {}
for featVec in dataSet: #the the number of unique elements and their occurance
currentLabel = featVec[-1]
if currentLabel not in labelCounts.keys(): labelCounts[currentLabel] = 0
labelCounts[currentLabel] += 1
shannonEnt = 0.0
for key in labelCounts:
prob = float(labelCounts[key])/numEntries
shannonEnt -= prob * log(prob,2) #log base 2
return shannonEnt
其中输入数据集是一个数组数组,其中每个数组代表一个潜在的可分类特征:
dataSet = [[1, 1, 'yes'],
[1, 1, 'yes'],
[1, 0, 'no'],
[0, 1, 'no'],
[0, 1, 'no']]
我不明白的是为什么本书中的香农熵函数只查看特征数组中的最后一个元素?看起来它只计算"is"或“否”项目的熵,而不是任何其他特征的熵?
这对我来说没有意义,因为这个数据集的熵
dataSet = [[1, 1, 'yes'],
[1, 'asdfasdf', 'yes'],
[1900, 0, 'no'],
[0, 1, 'no'],
['ddd', 1, 'no']]
与上面的熵相同,尽管它有更多不同的数据。
为了给出数据集的总熵,难道不应该也计算其他特征元素吗?还是我误解了熵计算应该做什么?
如果有人好奇,这本书的完整来源(这是此代码的来源)是 here在 Chapter03 文件夹下。
最佳答案
这里潜在的歧义是您正在查看的数据集同时包含特征和结果变量,结果变量在最后一列中。您要解决的问题是“特征 1 和特征 2 能帮助我预测结果吗”?
另一种表述方式是,如果我根据特征 1 拆分数据,我是否能获得更好的结果信息?
在这种情况下,没有拆分,结果变量是 [ yes, yes, no, no, no ]。如果我在功能 1 上拆分,我会得到 2 个组:特征 1 = 0 -> 结果是 [ 不,不 ]特征 1 = 1 -> Ouctome 是 [ 是,是,不是 ]
这里的想法是看看你是否对这种 split 更好。最初,你有一定的信息,用[是,是,否,否,否]的香农熵来描述。拆分后,您有两个组,其中特征 1 = 0 的组具有“更好的信息”:您知道在这种情况下结果为否,并且由 [ no, no ] 的熵来衡量。
换句话说,该方法是找出在您可用的功能中,是否有一个功能(如果使用)会增加您关心的信息,即结果变量。树构建将在每一步贪婪地选择信息增益最高的特征,然后查看是否值得进一步拆分结果组。
关于python - 了解数据集的香农熵,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16638553/
我是一名优秀的程序员,十分优秀!