gpt4 book ai didi

python - Porter Stemmer 可以返回词缀而不是词干吗?

转载 作者:太空宇宙 更新时间:2023-11-03 21:05:38 27 4
gpt4 key购买 nike

我正在开展一个项目,在该项目中我试图计算多个语料库的屈折形态百分比,以便对它们进行比较。

我知道如何使用 nltk Porter Stemmer 来获取单词的词根,但如果我可以返回词缀而不是词根,这对我会更有帮助。如果我能做到这一点,我就可以计算词干分析器切断的词缀数量(“ly”“ed”等)并将其与总单词数进行比较。这可能是一个简单的翻转,但我不知道如何用根来做到这一点。

最佳答案

您确定您正在谈论屈折形态吗?词形变化是指词性保持不变,词的变化只是为了表达一些语法特征(如过去)。屈折词缀始终是后缀,如果我们不考虑不规则单词,它们的数量是有限的(-ed-ing-er -est-s-es)。

然而,你似乎在谈论派生形态,因为可能只有一个屈折后缀,所以对我来说计数它们没有意义(如果它是引理,则为 01(如果是屈折形式)。

如果您谈论的是派生词缀,那么您正在寻找的就是词素分割/标记化,这并不是一件容易的事情,因为单词派生过程受到许多因素的影响并且没有很好的定义。在简单的情况下,我们只需将后缀(或前置前缀)附加到根,但是在某些情况下,根中的某些字母会被删除(arrive -> arrival )、更改(try -> tried 或更不寻常的,例如 assume -> assumion),甚至附加 ( 戏剧 -> 戏剧家)。此外,您需要有一些语义知识数据库,因为没有它就不可能在所有情况下正确确定语素。例如,单词remember可以被标记为re- + member。如果没有语义,这种形态分析看起来相当合理,因为 re- 是一个非常流行的前缀,表示重复,而 member 是一个现有的单词。知道语义关系会告诉我们 memberremember 没有关系(我相信它们可能在词源上相关,但在现代语言中这种关系并不那么明显)。

结账 Lingua RobotMorfessor 。第一个是解析英文的API Wiktionary并以 JSON 形式提供数据。词缀作为此 JSON 的一部分提供。 Morfessor 是一种形态分割工具,因此它完全可以满足您的需求。

关于python - Porter Stemmer 可以返回词缀而不是词干吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55425525/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com