gpt4 book ai didi

nlp - 在 NLP 中使用 Stemming 的真正目的是什么?

转载 作者:行者123 更新时间:2023-12-04 10:42:24 25 4
gpt4 key购买 nike

我知道词干提取和词形还原如下:
词干 - 将单词转换成不变的部分;有趣,娱乐 - 有趣
lemmatizing - 将单词转换为字典形式;有趣的,逗乐的
我可以理解为什么要使用词形还原。但我不明白做词干的目的?你可以解释吗 ?

最佳答案

正如你所说的词干 - 将单词转换为不变的部分

和词形还原 - 将单词转换为字典形式

机器学习算法如 BOW 或 tf-idf 与 有关词频

让我们举一个你在问题中提供的例子。

带词干
amusing, amusement这两个词都返回 amus所以这些词将被视为相同和频率 amus将是 2。

用词形还原amusing, amusement这两个词都返回 amuse因此,对于 amuse,这些词将再次被视为相同和频率。将是 2

在您的模型中,如果您使用词干或引理,则无关紧要(在这种特殊情况下)

词干只是从单词中剥离字母,而词形还原需要查看字典才能找到相关单词,因此词干显然比词形还原更快

所以你可以选择stemminglemmatization如果你想加快预处理

缺点

在出现词干的情况下

学习将给予学习和
研究会给研究

即使这些词的词根相同,这些词也会被视为不同

关于nlp - 在 NLP 中使用 Stemming 的真正目的是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59872918/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com