gpt4 book ai didi

python - 如何将复合词添加到 NLTK 中的标注器?

转载 作者:太空狗 更新时间:2023-10-30 01:34:36 26 4
gpt4 key购买 nike

所以,我想知道是否有人知道如何在 NLTK. 中的标记器中组合多个术语以创建单个术语。 .

例如,当我这样做时:

nltk.pos_tag(nltk.word_tokenize('Apple Incorporated is the largest company'))

它给了我:

[('Apple', 'NNP'), ('Incorporated', 'NNP'), ('is', 'VBZ'), ('the', 'DT'), ('largest', 'JJS'), ('company', 'NN')]

如何将“Apple”和“Incorporated”放在一起成为 ('Apple Incorporated','NNP')

最佳答案

你可以试试看 nltk.RegexParser .它允许您根据正则表达式对词性标记内容进行分块。在你的例子中,你可以做类似的事情

pattern = "NP:{<NN|NNP|NNS|NNPS>+}"
c = nltk.RegexpParser(p)
t = c.parse(nltk.pos_tag(nltk.word_tokenize("Apple Incorporated is the largest company")))
print t

这会给你:

Tree('S', [Tree('NP', [('Apple', 'NNP'), ('Incorporated', 'NNP')]), ('is', 'VBZ'), ('the', 'DT'), ('largest', 'JJS'), Tree('NP', [('company', 'NN')])])

关于python - 如何将复合词添加到 NLTK 中的标注器?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16927288/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com