gpt4 book ai didi

python - 斯坦福西类牙语 POS Tagger 标签的含义

转载 作者:太空狗 更新时间:2023-10-29 22:18:58 26 4
gpt4 key购买 nike

我正在使用 Stanford POS Tagger(通过 Python 中的 NLTK)标记西类牙语文本。

这是我的代码:

import nltk
from nltk.tag.stanford import POSTagger
spanish_postagger = POSTagger('models/spanish.tagger', 'stanford-postagger.jar')
spanish_postagger.tag('esta es una oracion de prueba'.split())

结果是:

[(u'esta', u'pd000000'),
(u'es', u'vsip000'),
(u'una', u'di0000'),
(u'oracion', u'nc0s000'),
(u'de', u'sp000'),
(u'prueba', u'nc0s000')]

我想知道在哪里可以找到 pd000000、vsip000、di0000、nc0s000、sp000 的确切含义?

最佳答案

这是 AnCora treebank 中使用的标签集的简化版本 。您可以在此处找到他们的标签集文档:https://web.archive.org/web/20160325024315/http://nlp.lsi.upc.edu/freeling/doc/tagsets/tagset-es.html

“简化”包括取消许多不严格属于词性标记的最终字段。例如,我们的词性标注器将始终为原始标记集的 NER 字段提供空值 (0)(请参阅 EAGLES noun documentation)。

简而言之:我们的标注器生成的 POS 标签中的字段与 AnCora POS 字段完全对应,但其中很多字段将为空。对于大多数实际用途,您只需查看标签的前 2-4 个字符。第一个字符始终表示广泛的 POS 类别,第二个字符表示某种子类型。


我们正在编写一些关于将西类牙语与 CoreNLP 结合使用的介绍性文档(这意味着了解这些标签,以及其他许多内容)。目前,您可以在我们technical documentation 的第一页找到更多信息。 .

关于python - 斯坦福西类牙语 POS Tagger 标签的含义,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27047450/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com