gpt4 book ai didi

stanford-nlp - 如何将 IOB 标签与斯坦福 NER 结合使用?

转载 作者:行者123 更新时间:2023-12-02 12:04:44 25 4
gpt4 key购买 nike

似乎有一些不同的设置:

iobtags
iobTags
entitySubclassification (IOB1 or IOB2?)
evaluateIOB

我应该使用哪种设置?如何正确使用它?

我尝试过这样的标签:

1997    B-DATE
volvo B-BRAND
wia64t B-MODEL
highway B-TYPE
tractor I-TYPE

但是在训练输出上,似乎认为B-TYPE和I-TYPE是不同的类别。

我使用的是 2013-11-12 版本。

最佳答案

当前(2013 版本)如何完成此操作有点困惑,因为两个不同的 DocumentReaderAndWriter 实现有两组不同的标志。抱歉。

CoNLLDocumentReaderAndWriter中可以找到对不同IOB样式的最灵活的支持。您可以让它在读取带有以下标志的文件时将任何 IOB/IOE/... 注释通过连字符前缀(例如您的示例 (B-BRAND))映射到任何其他注释:

-entitySubclassification IOB2

生成的标签集随后用于训练和分类。这些选项记录在 CoNLLDocumentReaderAndWriterentitySubclassify() 方法中:IOB1、IOB2、IOE1、IOE2、SBIEO、IO。您可以在 Tjong Kim Sang and Veenstra 1999 中找到 IOB1 与 IOB2 的讨论。 。默认情况下,表示在输出时映射回 IOB1,因为这是 CoNLL conlleval 程序中使用的默认值,但您可以将其保留为使用标志映射到的内容:

-retainEntitySubclassification

要使用这个DocumentReaderAndWriter,您可以给出如下训练命令:

java8 -mx6g edu.stanford.nlp.ie.crf.CRFClassifier -prop conll.crf.chris2009.prop -readerAndWriter edu.stanford.nlp.sequences.CoNLLDocumentReaderAndWriter -entitySubclassification iob2

或者,ColumnDocumentReaderAndWriter 是我们在分布式模型中使用的默认 DocumentReaderAndWriter。您获得的选项有所不同,并且稍微受到限制。您有这两个标志:

  • -mergeTags 将采用普通(“BRAND”)或类似 CoNLL(“I-BRAND”)标签,并将它们映射到无前缀 IO 标签(“BRAND”),并且用它来训练和分类。
  • -iobTags 可以采用普通标签(“BRAND”)或类似 CoNLL(“I-BRAND”)标签,并将它们映射到 IOB2。

在序列模型中,对于任何标记方案(例如 IOB2),标签不同的类别。这就是这些标签计划的运作方式。 “I-”、“B-”等的特殊解释留给人类观察者和实体级评估软件。随附的评估软件仅适用于 IOB1、IOB2 或无前缀 IO 编码。

关于stanford-nlp - 如何将 IOB 标签与斯坦福 NER 结合使用?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21469082/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com