stanford-nlp - 如何将 IOB 标签与斯坦福 NER 结合使用？-6ren

stanford-nlp - 如何将 IOB 标签与斯坦福 NER 结合使用？

转载作者：行者123 更新时间：2023-12-02 12:04:44

似乎有一些不同的设置:

iobtags
iobTags
entitySubclassification (IOB1 or IOB2?)
evaluateIOB

我应该使用哪种设置？如何正确使用它？

我尝试过这样的标签:

1997    B-DATE
volvo   B-BRAND
wia64t  B-MODEL
highway B-TYPE
tractor I-TYPE

但是在训练输出上，似乎认为B-TYPE和I-TYPE是不同的类别。

我使用的是 2013-11-12 版本。

最佳答案

当前(2013 版本)如何完成此操作有点困惑，因为两个不同的 DocumentReaderAndWriter 实现有两组不同的标志。抱歉。

在CoNLLDocumentReaderAndWriter中可以找到对不同IOB样式的最灵活的支持。您可以让它在读取带有以下标志的文件时将任何 IOB/IOE/... 注释通过连字符前缀(例如您的示例 (B-BRAND))映射到任何其他注释:

-entitySubclassification IOB2

生成的标签集随后用于训练和分类。这些选项记录在 CoNLLDocumentReaderAndWriter 的 entitySubclassify() 方法中:IOB1、IOB2、IOE1、IOE2、SBIEO、IO。您可以在 Tjong Kim Sang and Veenstra 1999 中找到 IOB1 与 IOB2 的讨论。。默认情况下，表示在输出时映射回 IOB1，因为这是 CoNLL conlleval 程序中使用的默认值，但您可以将其保留为使用标志映射到的内容:

-retainEntitySubclassification

要使用这个DocumentReaderAndWriter，您可以给出如下训练命令:

java8 -mx6g edu.stanford.nlp.ie.crf.CRFClassifier -prop conll.crf.chris2009.prop -readerAndWriter edu.stanford.nlp.sequences.CoNLLDocumentReaderAndWriter -entitySubclassification iob2

或者，ColumnDocumentReaderAndWriter 是我们在分布式模型中使用的默认 DocumentReaderAndWriter。您获得的选项有所不同，并且稍微受到限制。您有这两个标志:

-mergeTags 将采用普通(“BRAND”)或类似 CoNLL(“I-BRAND”)标签，并将它们映射到无前缀 IO 标签(“BRAND”)，并且用它来训练和分类。
-iobTags 可以采用普通标签(“BRAND”)或类似 CoNLL(“I-BRAND”)标签，并将它们映射到 IOB2。

在序列模型中，对于任何标记方案(例如 IOB2)，标签是不同的类别。这就是这些标签计划的运作方式。 “I-”、“B-”等的特殊解释留给人类观察者和实体级评估软件。随附的评估软件仅适用于 IOB1、IOB2 或无前缀 IO 编码。

关于stanford-nlp - 如何将 IOB 标签与斯坦福 NER 结合使用？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/21469082/

文章推荐： ios - NSURLSession - 控制传输速率

文章推荐： trading - Amibroker 回测中的买入头寸规模

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

stanford-nlp - 如何将 IOB 标签与斯坦福 NER 结合使用？