gpt4 book ai didi

python - NLTK WordNet 词形还原器 : Shouldn't it lemmatize all inflections of a word?

转载 作者:太空宇宙 更新时间:2023-11-03 20:41:34 27 4
gpt4 key购买 nike

我将 NLTK WordNet Lemmatizer 用于词性标记项目,首先将训练语料库中的每个单词修改为其词干(就地修改),然后仅在新语料库上进行训练。但是,我发现词形还原器没有按我的预期运行。

例如,单词 loves词形还原为 love这是正确的,但是这个词loving仍然loving即使在词形还原之后。这里loving就像“我很喜欢它”这句话一样。

不是 love变形词的词干 loving ?同样,许多其他“ing”形式在词形还原后仍保持原样。这是正确的行为吗?

还有哪些其他准确的词形还原器? (不需要在 NLTK 中)是否有形态分析器或词形还原器在决定词干时也考虑单词的词性标记?例如,单词 killing应该有kill作为词干 if killing用作动词,但应该有 killing如果用作名词,则作为词干(如 the killing was done by xyz )。

最佳答案

WordNet 词形还原器确实考虑了 POS 标记,但它并没有神奇地确定它:

>>> nltk.stem.WordNetLemmatizer().lemmatize('loving')
'loving'
>>> nltk.stem.WordNetLemmatizer().lemmatize('loving', 'v')
u'love'

如果没有 POS 标签,它会假设您提供的所有内容都是名词。所以在这里它认为你正在向它传递名词“love”(如“sweetlove”)。

关于python - NLTK WordNet 词形还原器 : Shouldn't it lemmatize all inflections of a word?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56833835/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com