gpt4 book ai didi

python - NLTK WordNet Lemmatizer : Shouldn't it lemmatize all inflections of a word?

转载 作者:IT老高 更新时间:2023-10-28 21:59:03 24 4
gpt4 key购买 nike

我将 NLTK WordNet Lemmatizer 用于词性标记项目,首先将训练语料库中的每个单词修改为其词干(就地修改),然后仅在新语料库上进行训练。但是,我发现 lemmatizer 没有像我预期的那样运行。

例如,单词 loves 被词形还原为 love 这是正确的,但单词 loving 仍然是 loving 即使在词形还原之后。这里的 loving 就像句子“我爱它”一样。

love不是变形词loving的词干吗?类似地,许多其他“ing”形式在词形还原后保持不变。这是正确的行为吗?

还有哪些其他准确的词形还原器? (不需要在 NLTK 中)在决定词干时是否有形态分析器或词形还原器也考虑到词的词性标签?例如,如果 killing 用作动词,则单词 killing 应该有 kill 作为词干,但它应该有 killing 如果用作名词,则作为词干(如 killed was done by xyz)。

最佳答案

WordNet lemmatizer 确实考虑了 POS 标签,但它不会神奇地确定它:

>>> nltk.stem.WordNetLemmatizer().lemmatize('loving')
'loving'
>>> nltk.stem.WordNetLemmatizer().lemmatize('loving', 'v')
u'love'

如果没有 POS 标签,它会假定您输入的所有内容都是名词。所以这里它认为你正在传递名词“爱”(如“甜蜜的爱”)。

关于python - NLTK WordNet Lemmatizer : Shouldn't it lemmatize all inflections of a word?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25534214/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com