作者热门文章
- mongodb - 在 MongoDB mapreduce 中,如何展平值对象?
- javascript - 对象传播与 Object.assign
- html - 输入类型 ="submit"Vs 按钮标签它们可以互换吗?
- sql - 使用 MongoDB 而不是 MS SQL Server 的优缺点
我将 NLTK WordNet Lemmatizer 用于词性标记项目,首先将训练语料库中的每个单词修改为其词干(就地修改),然后仅在新语料库上进行训练。但是,我发现 lemmatizer 没有像我预期的那样运行。
例如,单词 loves
被词形还原为 love
这是正确的,但单词 loving
仍然是 loving
即使在词形还原之后。这里的 loving
就像句子“我爱它”一样。
love
不是变形词loving
的词干吗?类似地,许多其他“ing”形式在词形还原后保持不变。这是正确的行为吗?
还有哪些其他准确的词形还原器? (不需要在 NLTK 中)在决定词干时是否有形态分析器或词形还原器也考虑到词的词性标签?例如,如果 killing
用作动词,则单词 killing
应该有 kill
作为词干,但它应该有 killing
如果用作名词,则作为词干(如 killed was done by xyz
)。
最佳答案
WordNet lemmatizer 确实考虑了 POS 标签,但它不会神奇地确定它:
>>> nltk.stem.WordNetLemmatizer().lemmatize('loving')
'loving'
>>> nltk.stem.WordNetLemmatizer().lemmatize('loving', 'v')
u'love'
如果没有 POS 标签,它会假定您输入的所有内容都是名词。所以这里它认为你正在传递名词“爱”(如“甜蜜的爱”)。
关于python - NLTK WordNet Lemmatizer : Shouldn't it lemmatize all inflections of a word?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25534214/
我是一名优秀的程序员,十分优秀!