gpt4 book ai didi

machine-learning - 处理某些类别的标记示例可能不正确(嘈杂)的数据

转载 作者:行者123 更新时间:2023-11-30 08:41:40 25 4
gpt4 key购买 nike

我正在处理一个数据集,如果一个例子被标记为正面,那么它绝对是正面的。不幸的是,对于负类,如果标签被标记为负类,则不能说同样的情况(并且它可能会变成正类)。此外,标记为负面的示例数量远远多于标记为正面的示例数量。我正在尝试在此训练数据集上学习分类模型。我想知道在这种情况下可以使用什么技术(特定类的标签可能有噪音)

最佳答案

标签的噪音不是问题,大多数分类器都假设某些数据被错误标记(例如 SVM 及其软边距)。这里有趣的是,一个特定类别的正确性之间存在不成比例。这可以通过以下几种方式来实现:

  • Use class-weighting scheme并为正类赋予更大的权重,因为由于其“正确性”,您应该更关心正确的分类,而负类中可能会有更多错误分类的元素(这也是类大小不成比例的解决方案)<
  • 在使用一些参数拟合时 - 使用自定义的 hack 指标,它将对正数进行加权而不是负数(因此您更关心 TP 和 FP,而不真正关心 TN 和 FN)。最简单的情况是精度度量,它只是忽略 TN 和 FN,但您也可以使用 F-beta measure ,它在精确度和召回率之间取得平衡 - 在您的情况下,您应该选择较小的 beta (可能与正/负正确率的比率成反比)。一般来说,这个 beta 参数显示您对召回率的关心程度是对精确度的关心程度。
  • 使用新颖性检测代替二元分类,并专注于检测正样本。此类任务有多种可能的模型,其中之一是一类 SVM。

关于machine-learning - 处理某些类别的标记示例可能不正确(嘈杂)的数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18923022/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com