gpt4 book ai didi

nlp - CoNLL 数据格式是什么?

转载 作者:行者123 更新时间:2023-12-02 01:43:49 35 4
gpt4 key购买 nike

我正在使用一个开源jar(Mate Parser),它在依赖项解析后以 CoNLL 2009 格式输出。我想使用依赖解析结果进行信息提取,但是我只理解CoNLL数据格式的部分输出。

有人可以解释一下 CoNLL 数据格式吗?

最佳答案

有很多不同的CoNLL格式,因为 CoNLL 每年都是不同的共享任务。 CoNLL 2009 的格式描述为 here 。每行代表一个单词以及一系列制表符分隔的字段。 _ 表示空值。 Mate-Parser's manual说它使用 CoNLL 2009 的前 12 列:

ID FORM LEMMA PLEMMA POS PPOS FEAT PFEAT HEAD PHEAD DEPREL PDEPREL

其中一些列的定义来自早期的共享任务(2006 年和 2007 年使用的 CoNLL-X format):

  • ID(句子中的索引,从 1 开始)
  • FORM(单词形式本身)
  • LEMMA(单词的引理或词干)
  • POS(词性)
  • FEAT(形态特征列表,以 | 分隔)
  • HEAD(语法父索引,0 表示 ROOT)
  • DEPREL(HEAD 与该单词之间的语法关系)

这些列有一些以 P 开头的变体(例如 PPOS 但不是 POS),表明该值是自动预测的,而不是黄金标准值。

更新:现在有一个CoNLL-U数据格式也扩展了 CoNLL-X 格式。

关于nlp - CoNLL 数据格式是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27416164/

35 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com