gpt4 book ai didi

nlp - 在对语言上相似的单词(例如动词时态、形容词比较、单数和复数)进行分类时,我如何调整 Levenshtein 距离

转载 作者:行者123 更新时间:2023-12-04 14:01:51 24 4
gpt4 key购买 nike

我对如何完成这项任务一无所知。我正在计算一个词的频率,实际上是这个词的基本形式(例如运行将被视为运行)。我查看了 Levenshtein distance 的一些实现(我遇到的一个实现是 from dotnerperls )。

我也试过双 Metaphone,但这不是我想要的。

所以,请给我一些关于如何调整 Levenshtein 距离算法以对语言相似的单词进行分类的想法,因为该算法仅用于确定所需的编辑次数,而不考虑它们是否在语言上相似

例子:
1. “running”将被计为“run”一词出现一次
2. "word"同样会出现 "word"
3.“恐惧”不会算作“齿轮”的发生

另外,我正在用 C# 实现它。

提前致谢。

编辑:我按照 Rene 的建议对其进行了编辑。
另一个注意事项:
我试图考虑一个词是否是另一个词的子字符串,但该实现不会那么动态。
我认为的另一个想法是:“如果将 -s 或 -ing 添加到 string1,string1 == string2,则 string2 是 string1 的出现。”然而,情况并非如此,因为有些词有不规则的复数形式。

最佳答案

您尝试解决的任务称为 StemmingLemmatisation .

正如您已经发现的那样,Levenshtein-Distance 不是去这里的方法。
常见的英语词干算法包括 Porter-Snowball-Stemmer。
如果你用谷歌搜索,我相信你会找到其中一个的 C# 实现。

关于nlp - 在对语言上相似的单词(例如动词时态、形容词比较、单数和复数)进行分类时,我如何调整 Levenshtein 距离,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8768920/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com