gpt4 book ai didi

machine-learning - 什么是弱监督学习(引导)?

转载 作者:行者123 更新时间:2023-11-30 08:21:24 27 4
gpt4 key购买 nike

我了解监督学习和无监督学习之间的区别:

监督学习是一种使用标记数据“教导”分类器的方法。

无监督学习让分类器“自行学习”,例如使用聚类。

但是什么是“弱监督学习”?它如何对示例进行分类?

最佳答案

更新答案

正如下面的几条评论提到的,情况并不像我最初在 2013 年写的那么简单。

普遍接受的观点是

  • 监督 - 使用嘈杂标签进行监督 ( wikipedia )
  • 监督 - 只有训练数据的子集有标签 ( wikipedia )

还有一些分类更符合我原来的答案,例如Zhi-Hua Zhou's 2017 A brief introduction to weakly supervised learning认为弱监管是一个总称

  • 不完整监督 - 只有训练数据的子集有标签(与上述相同)
  • 不精确监督 - 在仅使用粗粒度标签给出训练数据的情况下调用
  • 不准确监督 - 给定的标签并不总是真实的(上面的弱监督)。
<小时/>

原始答案

简而言之:在弱监督学习中,您使用有限数量的标记数据。

如何选择此数据以及您到底用它做什么取决于方法。一般来说,您使用有限数量的易于获取和/或产生真正影响的数据,然后学习其余的数据。我认为引导是一种可以用于弱监督学习的方法,但正如下面 Ben 的评论所示,这并不是一个普遍接受的观点。

例如,参见 Chris Bieman's 2007 dissertation为了更好地概述,它对引导/弱监督学习做了以下说明:

Bootstrapping, also called self-training, is a form of learning thatis designed to use even less training examples, therefore sometimescalled weakly-supervised. Bootstrapping starts with a few trainingexamples, trains a classifier, and uses thought-to-be positiveexamples as yielded by this classifier for retraining. As the set oftraining examples grows, the classifier improves, provided that nottoo many negative examples are misclassified as positive, which couldlead to deterioration of performance.

例如,在词性标注的情况下,人们通常会在 10,000 个单词上训练 HMM(或最大熵或其他)标注器,每个单词都有它的 POS。在弱监督标记的情况下,您可以简单地使用包含 100 个单词的非常小的语料库。你得到一些标记器,用它来标记 1000 个单词的语料库,在其上训练标记器并用它来标记更大的语料库。显然,你必须比这更聪明,但这是一个好的开始。 (有关引导标记器的更高级示例,请参阅 this paper)

注意:弱监督学习也可以指带有噪声标签的学习(此类标签可以但不一定是引导的结果)

关于machine-learning - 什么是弱监督学习(引导)?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18944805/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com