- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
似乎有一些不同的设置:
iobtags
iobTags
entitySubclassification (IOB1 or IOB2?)
evaluateIOB
我应该使用哪种设置?如何正确使用它?
我尝试过这样的标签:
1997 B-DATE
volvo B-BRAND
wia64t B-MODEL
highway B-TYPE
tractor I-TYPE
但是在训练输出上,似乎认为B-TYPE和I-TYPE是不同的类别。
我使用的是 2013-11-12 版本。
最佳答案
当前(2013 版本)如何完成此操作有点困惑,因为两个不同的 DocumentReaderAndWriter
实现有两组不同的标志。抱歉。
在CoNLLDocumentReaderAndWriter
中可以找到对不同IOB样式的最灵活的支持。您可以让它在读取带有以下标志的文件时将任何 IOB/IOE/... 注释通过连字符前缀(例如您的示例 (B-BRAND))映射到任何其他注释:
-entitySubclassification IOB2
生成的标签集随后用于训练和分类。这些选项记录在 CoNLLDocumentReaderAndWriter
的 entitySubclassify()
方法中:IOB1、IOB2、IOE1、IOE2、SBIEO、IO。您可以在 Tjong Kim Sang and Veenstra 1999 中找到 IOB1 与 IOB2 的讨论。 。默认情况下,表示在输出时映射回 IOB1,因为这是 CoNLL conlleval 程序中使用的默认值,但您可以将其保留为使用标志映射到的内容:
-retainEntitySubclassification
要使用这个DocumentReaderAndWriter
,您可以给出如下训练命令:
java8 -mx6g edu.stanford.nlp.ie.crf.CRFClassifier -prop conll.crf.chris2009.prop -readerAndWriter edu.stanford.nlp.sequences.CoNLLDocumentReaderAndWriter -entitySubclassification iob2
或者,ColumnDocumentReaderAndWriter
是我们在分布式模型中使用的默认 DocumentReaderAndWriter
。您获得的选项有所不同,并且稍微受到限制。您有这两个标志:
-mergeTags
将采用普通(“BRAND”)或类似 CoNLL(“I-BRAND”)标签,并将它们映射到无前缀 IO 标签(“BRAND”),并且用它来训练和分类。-iobTags
可以采用普通标签(“BRAND”)或类似 CoNLL(“I-BRAND”)标签,并将它们映射到 IOB2。在序列模型中,对于任何标记方案(例如 IOB2),标签是不同的类别。这就是这些标签计划的运作方式。 “I-”、“B-”等的特殊解释留给人类观察者和实体级评估软件。随附的评估软件仅适用于 IOB1、IOB2 或无前缀 IO 编码。
关于stanford-nlp - 如何将 IOB 标签与斯坦福 NER 结合使用?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21469082/
我是一名优秀的程序员,十分优秀!