gpt4 book ai didi

algorithm - 元组数据集的二元分类

转载 作者:塔克拉玛干 更新时间:2023-11-03 04:09:15 24 4
gpt4 key购买 nike

我有一个 2 类数据集,我应该在其上应用二元分类算法。数据集如下所示:

a1, a2, a3, ...... +1
......
b1, b2, b3, .......-1
…………

其中每个特征/属性值都是一个二元组。例如,a1 是 (a1_1, a1_2)。 a1_1 和 a1_2 之间存在依赖关系(虽然此时我不确定它们是如何相关的)并且它们的顺序并不重要。类似的情况也适用于负类实例。

我正在寻找对这些实例进行分类的方法。如果存在这样的算法,请告诉我。

首先,我尝试拆分元组 - a1_1 和 a1_2 为一个实例形成两个单独的列,导致每个实例的特征值数量增加一倍 - 并使用了 LIBSVM (C/C++) 库,但结果并非如此好的。我认为拆分元组并因此搜索合适的方法没有意义。

最佳答案

在所有条件相同的情况下,我想如果您的数据实际上包含成对的事物,那么将这一事实传达给学习算法会很有用。 将单体对拆分为单独的特征可以让您的分类算法有机会了解两个特征之间可能存在的任何有用关系

但这只是一般的经验法则。您可能无法获得良好分类结果的原因有多种:

  1. 一对中的两个特征之间可能没有有用的关系。如果是这样的话,那么分成两个特征会使你的问题变得更加困难:现在分类算法有 an additional dimension to explore .
  2. 也许您还没有找到合适的学习算法。不同的算法有不同的优势,如果您使用正确的分类算法,使用多个特征可能是一个好主意。我建议尝试像 Weka 这样的监督学习包,它提供了一种非常简单的方法来比较针对单个问题的一堆学习算法。只需将您的数据转换为 .arff 格式,您就可以立即使用 SVN、决策树、神经网络等进行分类。
  3. 您可能没有提供足够的功能。当您将 a1, a2, ... 拆分为单独的特征 [a1_1, a1_2], [a2_1, a2_2], ... 时,您还可以包含反向数据同样,例如[a1_1, a1_2], [a1_2, a1_1], [a2_1, a2_2], [a2_2, a2_1], ... 就此而言,您还可以使用三个通过为每个数据包含非拆分版本来实现功能,例如[a1, a1_1, a1_2], [a2, a2_1, a2_2], ... 这是一种“让我们把我们能想到的所有特征都用在问题上”的方法。
  4. 可能是您遇到了一个非常困难的分类问题。您是否有任何证据表明您的输入中实际上存在一些信号,分类器可以使用这些信号将数据分为两组?

关于algorithm - 元组数据集的二元分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11336856/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com