math - 什么是 "entropy and information gain"？-6ren

math - 什么是 "entropy and information gain"？

转载作者：行者123 更新时间：2023-12-03 03:59:36

32

4

我正在阅读这本书 ( NLTK ) 并且令人困惑。熵是 defined as :

Entropy is the sum of the probability of each label times the log probability of that same label

如何在文本挖掘方面应用熵和最大熵？有人可以给我一个简单的例子(视觉)吗？

最佳答案

我假设在建筑 decision trees 的上下文中提到了熵.

为了说明，想象一下 learning 的任务至 classify名字分成男性/女性组。给出一个名称列表，每个名称都标有 m或 f ，我们要学一个model符合数据，可用于预测新的未知名字的性别。

name       gender
-----------------        Now we want to predict 
Ashley        f              the gender of "Amro" (my name)
Brian         m
Caroline      f
David         m

第一步是 deciding什么 features的数据与我们要预测的目标类别相关。一些示例特征包括:第一个/最后一个字母、长度、元音数量、是否以元音结尾等。所以在特征提取后，我们的数据看起来像:

# name    ends-vowel  num-vowels   length   gender
# ------------------------------------------------
Ashley        1         3           6        f
Brian         0         2           5        m
Caroline      1         4           8        f
David         0         2           5        m

目标是建立一个 decision tree . tree 的示例将会:

length<7
|   num-vowels<3: male
|   num-vowels>=3
|   |   ends-vowel=1: female
|   |   ends-vowel=0: male
length>=7
|   length=5: male

基本上每个节点代表对单个属性执行的测试，我们根据测试结果向左或向右移动。我们继续遍历树，直到到达包含类预测的叶节点( m 或 f )

因此，如果我们沿着这棵树运行名称 Amro，我们首先要测试“长度是否小于 7？”答案是肯定的，所以我们沿着那个分支走下去。跟着分支，下一个测试“是元音数<3？”再次评估为真。这导致标记为 m 的叶节点，因此预测是男性(我碰巧是，所以树预测了结果 correctly )。

决策树是 built in a top-down fashion ，但问题是如何选择在每个节点拆分哪个属性？答案是找到最能将目标类拆分为最纯可能的子节点的特征(即:不包含男性和女性混合的节点，而是只有一个类的纯节点)。

这种纯度度量称为 information .它代表 expected金额 information考虑到到达节点的示例，需要指定新实例(名字)应归类为男性还是女性。我们计算它
基于节点上的男性和女性类的数量。

Entropy另一方面是杂质的量度(相反)。它是为 binary class 定义的值 a/ b作为:

Entropy = - p(a)*log(p(a)) - p(b)*log(p(b))

此 binary entropy function如下图所示(随机变量可以取两个值之一)。当概率为 p=1/2 时达到最大值, 意思是 p(X=a)=0.5或类似 p(X=b)=0.5有 50%/50% 的机会成为 a或 b (不确定性最大)。当概率为 p=1 时，熵函数的最小值为零或 p=0完全确定(分别为 p(X=a)=1 或 p(X=a)=0 ，后者意味着 p(X=b)=1 )。

https://en.wikipedia.org/wiki/File:Binary_entropy_plot.svg

当然，熵的定义可以推广到具有 N 个结果(不仅仅是两个)的离散随机变量 X:

entropy

(公式中的 log 通常取为 logarithm to the base 2 )

回到我们的名称分类任务，让我们看一个例子。想象一下，在构建树的过程中的某个时刻，我们正在考虑以下拆分:

     ends-vowel
      [9m,5f]          <--- the [..,..] notation represents the class
    /          \            distribution of instances that reached a node
   =1          =0
 -------     -------
 [3m,4f]     [6m,1f]

如您所见，在拆分之前，我们有 9 名男性和 5 名女性，即 P(m)=9/14和 P(f)=5/14 .根据熵的定义:

Entropy_before = - (5/14)*log2(5/14) - (9/14)*log2(9/14) = 0.9403

接下来，我们将其与通过查看两个子分支考虑拆分后计算的熵进行比较。在 ends-vowel=1 的左分支中，我们有:

Entropy_left = - (3/7)*log2(3/7) - (4/7)*log2(4/7) = 0.9852

和 ends-vowel=0的右分支，我们有:

Entropy_right = - (6/7)*log2(6/7) - (1/7)*log2(1/7) = 0.5917

我们使用每个分支下的实例数将左/右熵组合为 weight factor (7个实例向左，7个实例向右)，并得到 split 后的最终熵:

Entropy_after = 7/14*Entropy_left + 7/14*Entropy_right = 0.7885

现在通过比较 split 前后的熵，我们得到了 information gain 的度量。，或者我们通过使用该特定功能进行拆分获得了多少信息:

Information_Gain = Entropy_before - Entropy_after = 0.1518

您可以将上述计算解释如下:通过使用 end-vowels 进行拆分特征，我们能够将子树预测结果的不确定性降低 0.1518(在 bits 中测量为 units of information)。

在树的每个节点上，对每个特征都进行这个计算，在 greedy中选择信息增益最大的特征进行 split 。方式(因此有利于产生具有低不确定性/熵的纯 split 的特征)。此过程从根节点向下递归应用，并在叶节点包含所有具有相同类的实例时停止(无需进一步拆分)。

请注意，我跳过了一些 details超出了本文的范围，包括如何处理 numeric features , missing values , overfitting和 pruning树木等。

关于math - 什么是 "entropy and information gain"？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/1859554/

32

4

0

文章推荐： sql - 如何定期将一组表中的数据复制到另一组表中

文章推荐： flutter - 将两个 Streams 合并为一个 StreamProvider

文章推荐： performance - 原始类型 HashSet 或 HashMap 比 Object 快 10 倍？

文章推荐： asp.net-mvc - 在 MVC 中清除页面上的文本框字段

Java Math.sin Math.cos Math.tan 以弧度给出答案
这个问题在这里已经有了答案: Converting result of Math.sin(x) into a result for degrees in java (4 个答案) 关闭 5 年前。
math - java.lang.Math 与 kotlin.math 兼容吗？
我在学习 Kotlin 并在数学课上遇到了这个问题: java.lang.Math 和 kotlin.math 不兼容。这对我来说有点尴尬和困惑，因为 Kotlin 声称它与 Java 100% 兼容
python - 如何避免 math.sin(math.pi*2*VERY LARGE NUMBER) 的误差范围比 math.sin(math.pi*2) 大得多？
我在其他问题中读到，例如由于浮点表示，sin(2π) 不为零，但非常接近。这个非常小的错误在我的代码中不是问题，因为例如我可以四舍五入 5 位小数。但是当2π乘以一个非常大的数时，误差就会放大很多。
c# - Math.Sin、Math.Cos 和 Math.Tan 精度以及正确显示它们的方法
我正在用 C# 编写一个计算器。 textBoxResult 是我显示数字的文本框 recount 是一个以度为单位的角度并以弧度为单位返回的函数我从 texBoxInput 获取角度 public
math - 计算机图形 : Math to Code
首先，让我们从我的数学背景开始。我已经学习了微积分 I - IV 和微分方程。我参加了第一学期的计算机图形类(class)，在该类(class)中我们实现了几乎我们自己的图形管道，包括使用 Phong
math - Cocos2D/Math - 干净的角度转换
早上好! 我只是想磨练我的数学能力，我特别有一些关于 Cocos2D 的问题。由于 Cocos2D 想要“简化”事物，所有 Sprite 都有一个旋转属性，范围从 0-360(359？)CW。这迫使你
math - 英特尔MKL与AMD Math Core库
是否有人对Intel Math Kernel Library和AMD Math Core Library都有编程经验？我正在建立一台用于高性能统计计算的个人计算机，并对正在购买的组件进行辩论。 AMD
math - math.atan2 的逆？
函数的反函数是什么 math.atan2 我在 Lua 中使用它，我可以通过 math.tan 获得 math.atan 的逆。但我在这里迷路了。编辑好的，让我向您提供更多详细信息。我需要计算
math - 等距投影 : What's wrong with my math?
我有一道等轴测投影的数学题。我读了一篇文章:Axonometric projections - a technical overview .对于等距投影部分，它给出了将 x 部分的 3D 点转换为 2
math - MySQL Math - 是否可以计算查询中的相关性？
在 MySQL (5.1) 数据库表中，有数据表示: 用户执行任务需要多长时间用户在任务中处理了多少项目。 MySQL 是否支持关联数据，还是我需要使用 PHP/C# 来计算？我在哪里可以找到计算
javascript - 为什么 Math.pow 比缓存的 Math.pow 更快 (var pow = Math.pow)
关闭。这个问题是opinion-based 。目前不接受答案。想要改进这个问题吗？更新问题，以便 editing this post 可以用事实和引文来回答它。 . 已关闭 9 年前。 Improv
c# - 一种实现幂函数的有效方法 : Why Math. Exp(x * Math.Log(n)) 比 Math.Pow() 更快？
我正在尝试使用这两种方法在 C# 中解决这个问题: public double NormalPowerMethod(double x, double toPower) { return Mat
javascript - Math.random()*50 + Math.random()*20 的分布与 Math.random()*70 相比如何？
如何分配: var randomNumber = Math.random()*50 + Math.random()*20; 比较: var randomNumber = Math.random()*7
java - (int) Math.sqrt(n) 比 (int) Math.floor(Math.sqrt(n)) 慢很多
我正在查看我的代码，希望提高它的性能，然后我看到了这个: int sqrt = (int) Math.floor(Math.sqrt(n)); 哦，好的，我真的不需要调用 Math.floor，因为转
math - 为什么在 Math.h 中调用函数时会出现链接错误？
尝试调用 math.h 中的函数时, 我收到如下链接错误 undefined reference to sqrt 但我正在做一个 #include 我正在使用 gcc 并编译如下: gcc -Wall
math - smarty 将 {math} 方程中的值赋给一个变量
祝大家有个愉快的一天，我有话要问你，为了更好地理解这里是我的代码: {math equation=((($order_total-$commission)+$discount+$delivery_ch
math - 使用clojure.math.numeric-tower或任何库
我尝试学习一些Clojure，因为该语言看起来不错。但是似乎没有关于如何安装/使用库的信息，例如clojure.math.numeric-tower。现在，我通过在Linux shell中键入以下
javascript - 为什么 Math.sign([]) = 0、Math.sign([20]) = 1 和 Math.sign([20, 30, 40]) = NaN？
As Math.sign() 接受数字参数或数字作为字符串，如 https://developer.mozilla.org/en-US/docs/Web/JavaScript/Reference/Gl
scala - 将scala.math.BigDecimal转换为java.math.BigDecimal？
如何将scala.math.BigDecimal转换为java.math.BigDecimal？最佳答案无需在字符串之间进行双重转换。 val sb = scala.math.BigDecimal
javascript - 为什么 Math instanceof Math 会抛出错误？
为什么下面的 JavaScript 会这样 Math instanceof Math 抛出错误 TypeError: Expecting a function in instanceof check,

首页

博学

6Ren·AI

商城

math - 什么是 "entropy and information gain"？