- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我想在Python中执行词性标记和实体识别,类似于R中openNLP的Maxent_POS_Tag_Annotator和Maxent_Entity_Annotator函数。我更喜欢Python中的代码,它将输入作为文本句子,并以不同的特征给出输出,例如数量“CC”、“CD”的数量、“DT”的数量等。CC、CD、DT 是 Penn Treebank 中使用的 POS 标签。因此,词性标记应该有 36 个列/特征,对应于 Penn Treebank POS 中的 36 个词性标记。 。我想在 Azure ML“执行 Python 脚本”模块上实现此功能,并且 Azure ML 支持 python 2.7.7。我听说 python 中的 nltk 可以完成这项工作,但我是 python 的初学者。任何帮助,将不胜感激。
最佳答案
看看NTLK book ,分类和标记单词部分。
简单的示例,它使用 Penn Treebank 标记集:
from nltk.tag import pos_tag
from nltk.tokenize import word_tokenize
pos_tag(word_tokenize("John's big idea isn't all that bad."))
[('John', 'NNP'),
("'s", 'POS'),
('big', 'JJ'),
('idea', 'NN'),
('is', 'VBZ'),
("n't", 'RB'),
('all', 'DT'),
('that', 'DT'),
('bad', 'JJ'),
('.', '.')]
然后就可以使用
from collections import defaultdict
counts = defaultdict(int)
for (word, tag) in pos_tag(word_tokenize("John's big idea isn't all that bad.")):
counts[tag] += 1
获取频率:
defaultdict(<type 'int'>, {'JJ': 2, 'NN': 1, 'POS': 1, '.': 1, 'RB': 1, 'VBZ': 1, 'DT': 2, 'NNP': 1})
关于python - 词性标记和实体识别 - python,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32422626/
我正在使用 SpaCy 进行文本分析,但我无法理解词性 (POS) 和句法依赖分析之间的区别。两者都根据单词的作用在句子中标记单词。但它们究竟有何不同? 最佳答案 我们使用词性标注来标记句子中的标记,
我正在使用 SpaCy 进行文本分析,但我无法理解词性 (POS) 和句法依赖分析之间的区别。两者都根据单词的作用在句子中标记单词。但它们究竟有何不同? 最佳答案 我们使用词性标注来标记句子中的标记,
我正在使用 openNLP 来标记 POS(词性)。 InputStream inputStream = new FileInputStream("C:/en-pos-max
抱歉,我是 Pandas 和 NLTK 的新手。我正在尝试构建一组自定义返回的 POS。我的数据内容: comment 0 [(have, VERB), (you, PRO
我正在尝试执行词性标记,并且我对任何基于 Java 的标记器持开放态度(当前使用 OpenNLP)。有没有办法“强制”标记器将特定术语(或单词组合)识别为特定标签,并据此对其他术语进行分类?有点允许标
我想将 nltk.pos_tag 返回的词性 (POS) 用于 sklearn 分类器,如何将它们转换为向量并使用它?例如 sent = "这是 POS 示例" tok=nltk.tokenize.w
我是一名优秀的程序员,十分优秀!