gpt4 book ai didi

python - Maxent POS标签表

转载 作者:行者123 更新时间:2023-11-28 22:03:51 26 4
gpt4 key购买 nike

我使用 nltk.pos_tag 进行词性标注,它使用 maxent 词性标注器。我需要一张包含所有可用标签的表格。

我的最终目标是仅从文本中提取副词和形容词。

感谢任何帮助。

谢谢

最佳答案

pos_tag,根据其文档字符串,使用了“NLTK 目前推荐的词性标注器”,因此该建议的有效性可能会过期。要获得可重现的结果,请使用显式词性标注器对象。

查看 source code for pos_tag ,我们可以看到它调用了

>>> nltk.data.load('taggers/maxent_treebank_pos_tagger/english.pickle')

我们可以从中获取 POS 标签列表

>>> _.classifier().labels()
['PRP$', 'VBG', 'VBD', '``', 'VBN', 'POS', "''", 'VBP', 'WDT', 'JJ', 'WP', 'VBZ',
'DT', '#', 'RP', '$', 'NN', 'FW', ',', '.', 'TO', 'PRP', 'RB', '-LRB-', ':',
'NNS', 'NNP', 'VB', 'WRB', 'CC', 'LS', 'PDT', 'RBS', 'RBR', 'CD', '-NONE-',
'EX', 'IN', 'WP$', 'MD', 'NNPS', '-RRB-', 'JJS', 'JJR', 'SYM', 'UH']

(我必须承认我是通过对象检查和反复试验发现的。)

形容词和副词至少是 JJ (adj) 和 RB (adv) 类别,也许加上 VBN(过去分词,例如“累了”)。

关于python - Maxent POS标签表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8175726/

26 4 0