gpt4 book ai didi

python - 词性标记和实体识别 - python

转载 作者:行者123 更新时间:2023-12-03 05:08:21 24 4
gpt4 key购买 nike

我想在Python中执行词性标记和实体识别,类似于R中openNLP的Maxent_POS_Tag_Annotator和Maxent_Entity_Annotator函数。我更喜欢Python中的代码,它将输入作为文本句子,并以不同的特征给出输出,例如数量“CC”、“CD”的数量、“DT”的数量等。CC、CD、DT 是 Penn Treebank 中使用的 POS 标签。因此,词性标记应该有 36 个列/特征,对应于 Penn Treebank POS 中的 36 个词性标记。 。我想在 Azure ML“执行 Python 脚本”模块上实现此功能,并且 Azure ML 支持 python 2.7.7。我听说 python 中的 nltk 可以完成这项工作,但我是 python 的初学者。任何帮助,将不胜感激。

最佳答案

看看NTLK book ,分类和标记单词部分。

简单的示例,它使用 Penn Treebank 标记集:

from nltk.tag import pos_tag
from nltk.tokenize import word_tokenize
pos_tag(word_tokenize("John's big idea isn't all that bad."))

[('John', 'NNP'),
("'s", 'POS'),
('big', 'JJ'),
('idea', 'NN'),
('is', 'VBZ'),
("n't", 'RB'),
('all', 'DT'),
('that', 'DT'),
('bad', 'JJ'),
('.', '.')]

然后就可以使用

from collections import defaultdict
counts = defaultdict(int)
for (word, tag) in pos_tag(word_tokenize("John's big idea isn't all that bad.")):
counts[tag] += 1

获取频率:

defaultdict(<type 'int'>, {'JJ': 2, 'NN': 1, 'POS': 1, '.': 1, 'RB': 1, 'VBZ': 1, 'DT': 2, 'NNP': 1})

关于python - 词性标记和实体识别 - python,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32422626/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com