gpt4 book ai didi

tensorflow - 多类分类中负例的经验法则

转载 作者:行者123 更新时间:2023-11-30 08:46:09 25 4
gpt4 key购买 nike

在多类分类任务中,对于表示“其他所有内容”的标签来说,样本数量应该有多大,是否有经验法则?

示例:我想将我的输入分类为 X 类之一。当输入为“以上都不是”时,X + 1 类将激活。假设我的数据集包含 10 个“正”类别中每个类别的 5,000 个样本。对于代表“未知”类的示例,我将使用可能在生产中找到的多个实际示例,但这些示例并非来自其他类。

这些反例的数量相对于其他分布应该有多大?

最佳答案

这可能有点偏离主题,但无论如何,我认为没有通用的经验法则,这取决于您的问题和方法。

我会考虑以下因素:

  • 数据的性质。这有点抽象,但您可以问自己是否希望“其他所有”类中的示例很容易与实际类混淆。例如,如果您想在动物的一般图像中检测狗或猫,可能有许多其他动物(例如狐狸)可能会混淆系统,但如果您的输入只有狗、猫或家具的图像,则可能不是这样很多。然而,这只是一种直觉,在其他问题中可能并不那么清楚。
  • 你的模型。例如,在this answer I gave to a related question中我提到了一种在其余类的函数中对“其他所有内容”进行建模的方法,因此您可能会认为,如果输入不太相似(上一点),即使没有“其他所有内容”的示例,它也可能会起作用,因为没有其他类被触发。其他技巧,例如为每个类别赋予不同的训练“权重”(例如,根据每个类别的实例数量进行计算),可以补偿不平衡的数据集。
  • 您的目标。显然,您希望您的系统是完美的,但您可能会考虑是否愿意出现误报或漏报(例如,错过狗的图像或在没有狗的情况下说有狗是否更糟糕)。如果您预计您的输入主要由“其他所有内容”的实例组成,那么您的模型偏向于该类可能是有道理的,或者可能正是因为这个原因,您希望确保不会丢弃任何可能有趣的样本.

不幸的是,判断你是否做得好的唯一好方法是在代表性测试数据集上进行实验并获得良好的指标(混淆矩阵、每类精度/召回率等)。

关于tensorflow - 多类分类中负例的经验法则,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48198306/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com