gpt4 book ai didi

nlp - 远程监督关系抽取中的负样本从何而来?

转载 作者:行者123 更新时间:2023-12-04 19:37:49 27 4
gpt4 key购买 nike

coursera nlp视频 Dan Jurafsky 展示了如何从种子开始,在语料库中搜索它们,并提取这些种子实例的特征(尽管他没有说明 nlp 从业者如何提取特征:https://stackoverflow.com/questions/23401313/in-semi-supervised-relation-extraction-how-do-you-create-features-from-seed-exa)

然后他说语料库中的种子实例算作监督分类器的正例。但是有监督的分类器需要正面和负面的例子。当 NLP 从业者通过远程监督进行这种关系抽取时,负面示例从何而来?

最佳答案

通常,在远程监督中,反例生成是一种启发式方法,并且通常依赖于语料库。对于关系抽取,通常假设语料库是完整的。因此,对于给定的一对实体 (a,b),语料库中 ab 之间不存在关系被视为ab 事实上是不相关的。这提供了对 (a,b) 作为反例。

在 Jurafsky 的论文中 Distant supervision for relation extraction without labeled data ,例如,作者通过随机选择未出现在任何 Freebase 关系中的实体对来建立一个名为 unrelated 的显式关系。请注意,就像正面示例一样,负面示例在远程监督中也可能很嘈杂。我引用秒。 6.3 同一篇论文:

While it is possible that some of these entity pairs are in fact related but are wrongly omitted from the Freebase data, we expect that on average these false negatives will have a small effect on the performance of the classifier.

请注意,这篇论文发表于 2009 年。研究人员很快识别出了“我们预计……影响很小……”这句话。最近关于使用远程监督进行关系提取的工作试图克服像我刚才描述的那样的简单启发式方法所产生的假阴性的不利影响。发生这种情况是因为在现实中,知识库(例如 Freebase)通常是不完整的。几个例子:

  1. 与段落检索模型一起使用的多实例学习器。段落检索模型对负面示例进行排序,以反射(reflect)它们实际上为负面的可能性。 (引用 Filling Knowledge Base Gaps for Distant Supervision of Relation Extraction)
  2. 未标记 示例而不是明确的负示例中学习关系。 (引用 Distant Supervision for Relation Extraction with an Incomplete Knowledge Base)

这两篇论文都来自 2013 年。不幸的是,对这些方法的更详细解释或分析超出了 SO 的范围。

关于nlp - 远程监督关系抽取中的负样本从何而来?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23401457/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com