gpt4 book ai didi

machine-learning - 为什么 ID3 算法在 Weka 的 UCI Mushroom 数据集上不起作用?

转载 作者:行者123 更新时间:2023-11-30 08:53:42 27 4
gpt4 key购买 nike

我似乎无法将 ID3 分类算法应用于 Mushroom.arff 数据集。该数据集仅包含名义属性。我认为我需要对其进行预处理才能使其正常工作,但我不知道如何进行。我该如何继续?

this image shows i am unable to apply id3 to mushroom.arff

最佳答案

ID3算法是一种未剪枝的决策树生成算法,其结构如下properties :

  1. 它只能处理名义属性。
  2. 它无法处理缺失值。
  3. 空叶子可能会导致未分类的实例。

Mushroom dataset由 22 个名义属性组成,满足第一个条件,但是经过检查,您会发现属性 'stalk-root' 有 2480 (31%) 个缺失值。这就是当您尝试分类时默认情况下它在 Weka 中不可选择的原因。

为了解决此问题,您可以继续使用这两种解决方案。

  1. 您可以删除该属性。

    • 打开 .arff 文件,在“属性”选项卡中选择 stalk-root 属性,然后单击“删除”。
      1. 您现在会看到 ID3 可用。我的 F 分数为 1.0。

Solution Image

  • 您可以使用技术来处理缺失值。

    • 如果您不想丢失信息(在本例中为“stalk-root”属性),您可以继续使用这些 techniques :
      1. 使用平均值、中位数等属性的集中趋势度量来替换空值。
      2. 对与给定元组属于同一类的所有样本使用属性均值或中位数。
      3. 使用贝叶斯形式主义的基于推理的工具,使用最可能的值来填充缺失值。
  • 关于machine-learning - 为什么 ID3 算法在 Weka 的 UCI Mushroom 数据集上不起作用?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50066304/

    27 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com