gpt4 book ai didi

python - 使用我自己的标记语料库进行 NLTK POS 标记?

转载 作者:行者123 更新时间:2023-12-01 01:56:18 24 4
gpt4 key购买 nike

我正在尝试使用 NLTK 为多斯拉克语编写一个基本的词性标注器。与布朗语料库类似,我有自己的 .txt 文件,其中包含单词及其相关词性。例如...

Anha/PRP vidrik/VBP khalasares/NN anni/NN jim/NN

我想做的是将语料库加载到 NLTK 中,并能够在单词旁边看到词性,类似于布朗语料库的做法。这就是我正在做的事情:

from nltk.corpus.reader import TaggedCorpusReader

corpus_root = '...'
dothraki_corpus_tagged = TaggedCorpusReader(corpus_root, ".*", ".txt")
print (dothraki_corpus_tagged.tagged_sents('dt01.txt'))

但我的结果是:

[[('Anha/PRP', None), ('vidrik/VBP', None), ('khalasares/NN', None), ('anni/NN', None), ('jim/NN', None)]]

而不是

[[('Anha', 'PRP'), ('vidrik', 'VBP') ...]]

最佳答案

所以我现在感觉有点傻,但我通过简单地从 TaggedCorpusReader 参数中删除“.*”就得到了我想要的东西。所以我现在得到的是:

dothraki_corpus_tagged = TaggedCorpusReader(corpus_root, ".txt")
print (dothraki_corpus_tagged.tagged_sents('dothraki_01.txt'))

关于python - 使用我自己的标记语料库进行 NLTK POS 标记?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50145355/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com