gpt4 book ai didi

java - StanfordNLP 词形还原无法处理 -ing 词

转载 作者:行者123 更新时间:2023-11-30 08:12:53 30 4
gpt4 key购买 nike

我一直在试验 Stanford NLP 工具包及其词形还原功能。我很惊讶它如何使一些词词形还原。例如:

depressing -> depressing
depressed -> depressed
depresses -> depress

它无法将 depressingdepressed 转换成同一个引理。 Simmilar 发生在 confusingconfusedhopelesslyhopeless 上。我感觉它唯一能做的就是删除 s 如果单词是这种形式(例如 feels -> feel)。这种行为对于英语中的 Lematizatiors 来说是正常的吗?我希望他们能够将这些常用词的变体转化为相同的引理。

如果这是正常的,我应该使用词干分析器吗?而且,有没有办法在 StanfordNLP 中使用像 Porter(Snowball 等)这样的词干分析器?他们的文档中没有提到词干分析器;但是,API 中有一些 CoreAnnotations.StemAnnotation。如果不能使用 StanfordNLP,您推荐在 Java 中使用哪些词干提取器?

最佳答案

词形还原主要取决于标记的词性。只有具有相同词性的标记才会映射到相同的引理。

在“This is confusing”这句话中,confusing被解析为形容词,因此词形化为confusing。相比之下,在句子“I was confusing you with someone else”中,confusing 被分析为动词,并被词形还原为confuse

如果您希望将具有不同词性的标记映射到相同的引理,您可以使用词干提取算法,例如 Porter Stemming ,您可以简单地调用每个 token 。

关于java - StanfordNLP 词形还原无法处理 -ing 词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30210494/

30 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com