algorithm - 有关ID3算法如何选择最佳属性以将节点分支到子树的一些问题-6ren

algorithm - 有关ID3算法如何选择最佳属性以将节点分支到子树的一些问题

转载作者：塔克拉玛干更新时间：2023-11-03 03:24:56

26

4

我正在为一个大学的例子学习id3算法，我有一些问题来理解如何选择最好的属性来创建在根中属性较少的新子树（直到达到叶子的创建）
所以我会举一个在老师讲稿上找到的实际例子，希望有人能给我一些实际的帮助来解决我的疑惑。
这是我要建立的最终决策树：
这个决策树简单地说，当我在餐厅时，我是否必须等待。
所以，例如：如果有很多顾客（顾客属性=很多），而且他们很饿（饥饿属性=是），而且菜肴类型是法式（类型属性=法式），那么这意味着我会等待。相反，如果没有赞助人（赞助人属性=否），我可以立即得出结论，我将不必等待。
好的，所以使用决策树非常简单。
这是表示上一个决策树示例的域的表（还有一些属性，但我认为这并不重要）：
所以，如果我说错了，请纠正我，这个表提供了12个示例，这些示例显示了常见情况，id3算法将使用这些示例来构建我的决策树。
这是ID3算法的伪代码：

ID3 (Examples, Target_Attribute, Attributes)
    Create a root node for the tree
    If all examples are positive, Return the single-node tree Root, with label = +.
    If all examples are negative, Return the single-node tree Root, with label = -.
    If number of predicting attributes is empty, then Return the single node tree Root,
    with label = most common value of the target attribute in the examples.
    Otherwise Begin
        A ← The Attribute that best classifies examples.
        Decision Tree attribute for Root = A.
        For each possible value, v_i, of A,
            Add a new tree branch below Root, corresponding to the test A = v_i.
            Let Examples(v_i) be the subset of examples that have the value v_i for A
            If Examples(v_i) is empty
                Then below this new branch add a leaf node with label = most common target value in the examples
            Else below this new branch add the subtree ID3 (Examples(v_i), Target_Attribute, Attributes – {A})
    End
    Return Root

因此，这个算法从创建根节点开始，在这个节点中，我将前一个表提供的所有示例按照我将对事件进行分类的类进行划分。
因此，在本例中，我将前面的12个例子分为两类，分别对应于：正面例子（与情况相关：我将在餐厅等待）和负面例子（与情况相关：我将不在餐厅等待）
因此，在前面的表中，我的决策树的根节点有以下情况：
+：x1、x3、x4、x6、x8、x12（正面示例）
-：x2、x5、x7、x9、10、x11（反例）
与这些示例相关的属性是上表中的属性：Fri、Hun、Pat、Price、Rain、Res、Type、Est
我认为这些属性并没有全部用于我的决策树，因为我达到了目标（一个结论），而没有使用全部。
现在我的情况是，我把我的例子分为正反两种情况，我必须选择第一个最好的属性（这是所有先前属性中更相关的属性）。
实际上，我必须执行第一步：
他选择赞助人属性作为第一个分支步骤的最佳属性。
这个属性可以有以下值：none（餐厅里没有顾客）、some（顾客很少）、full（餐厅里满是顾客），所以我必须在3个子树中分支（并在这些树的相关根节点标签中放置相关案例）
我的问题是：如何选择最佳节点？
我知道我必须使用熵值：
用于计算所有属性的信息增益：
在对所有属性都做了这些之后，我必须选择对信息增益有更高价值的属性作为最佳属性
但是我在前面的例子中发现了一些问题。有人可以告诉我如何将这些公式应用到我选择“顾客属性”作为“第一最佳属性”的具体情况中？
TNX太多了
安德莉亚

最佳答案

看起来你是从Wikipedia page on ID3中提取的符号，它不是标准的机器学习符号它告诉你要计算的是：
每一类样本在x类中的概率p（x）。这只是x类所考虑的集合的比例。
整个训练集的熵h（s）。公式很简单。
对于每个属性（变量、特征）A：
由于在A上分裂而产生的子集集。
t的每个元素t的熵h（t）（使用与之前相同的公式；可能缓存此公式以避免重复计算）。
信息增益ig（a），它是上一步分裂熵的函数。
如果您这样做，那么您就可以对特性A上的拆分质量进行度量。

关于algorithm - 有关ID3算法如何选择最佳属性以将节点分支到子树的一些问题，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/17126071/

26

4

0

文章推荐： algorithm - 生成带约束的二进制排列

文章推荐： algorithm - 15谜题真的可以通过回溯解决吗？

文章推荐： algorithm - 如何最小化固定分配方案所需的内存量？

文章推荐： Java/Groovy - GroovyClassLoader 中的内存泄漏

树结构之MongoDb 使用的到底是 B 树，还是 B+ 树？
关于 B 树与 B+ 树，网上有一个比较经典的问题：为什么 MongoDb 使用 B 树，而 MySQL 索引使用 B+ 树? 但实际上 MongoDb 真的用的是 B 树吗?
c# - 持久(基于磁盘)R 树(或 R* 树)
如何将 R* Tree 实现为持久(基于磁盘)树？保存 R* 树索引或保存叶值的文件的体系结构是什么？注意:此外，如何在这种持久性 R* 树中执行插入、更新和删除操作？注意事项二:我已经实现了一个
java - 给定另一个 AST 树，在 Java 中创建一个 AST 树
目前，我正在努力用 Java 表示我用 SML 编写的 AST 树，这样我就可以随时用 Java 遍历它。我想知道是否应该在 Java 中创建一个 Node 类，其中包含我想要表示的数据，以及一个数
c++ - C++ 中任何好的范围查询库(使用 K-D 树、四叉树或 R 树)
我之前用过这个库http://www.cs.umd.edu/~mount/ANN/ .但是，它们不提供范围查询实现。我猜是否有一个 C++ 范围查询实现(圆形或矩形)，用于查询二维数据。谢谢。最佳
为什么MySQL数据库索引选择使用B+树?
在进一步分析为什么MySQL数据库索引选择使用B+树之前，我相信很多小伙伴对数据结构中的树还是有些许模糊的，因此我们由浅入深一步步探讨树的演进过程，在一步步引出B树以及为什么MySQL数据库索引选择
数据结构-树，三探之代码实现
书接上回，今天和大家一起动手来自己实现树。相信通过前面的章节学习，大家已经明白树是什么了，今天我们主要针对二叉树，分别使用顺序存储和链式存储来实现树。 01、数组实现我们在上一节中说过，
数据结构-树，再探
书节上回，我们接着聊二叉树，N叉树，以及树的存储。 01、满二叉树如果一个二叉树，除最后一层节点外，每一层的节点数都达到最大值，即每个节点都有两个子节点，同时所有叶子节点都在最后一层，则这个
数据结构-树，初探
树是一种非线性数据结构，是以分支关系定义的层次结构，因此形态上和自然界中的倒挂的树很像，而数据结构中树根向上树叶向下。什么是树？ 01、定义树是由n（n>=0）个元素节点组成的
操作系统的那棵“树”---06
操作系统的那棵“树” 今天从一颗开始，我们看看如何从小树苗长成一颗苍天大树。运转CPU CPU运转起来很简单，就是不断的从内存取值执行。 CPU没有好好运转 IO是个耗费时间的活，如果CPU在取值
r - 从物种列表制作简单的系统发育树状图(树)
我想为海洋生物学类(class)制作一个简单的系统发育树作为教育示例。我有一个具有分类等级的物种列表: Group <- c("Benthos","Benthos","Benthos","Be
c++ - 树，无法正确删除节点
我从这段代码中删除节点时遇到问题，如果我插入数字 12 并尝试删除它，它不会删除它，我尝试调试，似乎当它尝试删除时，它出错了树的。但是，如果我尝试删除它已经插入主节点的节点，它将删除它，或者我插入数字
haskell - 如何在Haskell中实现B+树？
B+ 树的叶节点链接在一起。将 B+ 树的指针结构视为有向图，它不是循环的。但是忽略指针的方向并将其视为链接在一起的无向叶节点会在图中创建循环。在 Haskell 中，如何将叶子构造为父内部节点的子
GWT 树，开幕事件
我在 GWT 中使用树控件。我有一个自定义小部件，我将其添加为 TreeItem: Tree testTree = new Tree(); testTree.addItem(myWidget); 我想
c - 树/链表结构的遍历
它有点像混合树/链表结构。这是我定义结构的方式 struct node { nodeP sibling; nodeP child; nodeP parent; char
c - 树:使用队列进行层序遍历
我编写了使用队列遍历树的代码，但是下面的出队函数生成错误，head = p->next 是否有问题？我不明白为什么这部分是错误的。 void Levelorder(void) { node *tmp,
javascript - 将平面数组解析为嵌套结构(树)
例如，我想解析以下数组: var array1 = ["a.b.c.d", "a.e.f.g", "a.h", "a.i.j", "a.b.k"] 进入: var json1 = { "nod
java - 树-路径总和
问题 -> 给定一棵二叉树和一个和，确定该树是否具有从根到叶的路径，使得沿路径的所有值相加等于给定的和。我的解决方案 -> public class Solution { public bo
带有列的 Java 树
我有一个创建 java 树的任务，它包含三列:运动名称、运动类别中的运动计数和上次更新。类似的东西显示在下面的图像上: 如您所见，有 4 种运动:水上运动、球类运动、跳伞运动和舞蹈运动。当我展开 sk
mysql - H2数据库中的B+树
我想在 H2 数据库中实现 B+ Tree，但我想知道，B+ Tree 功能在 H2 数据库中可用吗？最佳答案 H2 已经使用了 B+ 树(PageBtree 类)。关于mysql - H2数据库
java - 字符串数组(树)
假设我们有 5 个字符串数组: String[] array1 = {"hello", "i", "cat"}; String[] array2 = {"hello", "i", "am"}; Str

首页

博学

6Ren·AI

商城

algorithm - 有关ID3算法如何选择最佳属性以将节点分支到子树的一些问题