gpt4 book ai didi

algorithm - 在 K-Means 聚类中使用词干提取

转载 作者:塔克拉玛干 更新时间:2023-11-03 04:47:53 28 4
gpt4 key购买 nike

我正在尝试实现 K-Means Algorithm并对矢量部分感到困惑。

这就是我所做的:

对于每个文档,我为其中的每个单词生成 tf-idf 并将其存储在 STL 映射中。然后使用余弦相似度算法与实际词。

我应该在哪里使用词干提取部分?

我应该先提取词干并计算提取词干的 tf-idf 吗?

我应该只对算法使用词干词吗?

使用词干提取不会降低结果吗?

最佳答案

这取决于您的聚类目标是什么。
在我们曾经做过的一个项目中,我们需要提供两个字符串之间的匹配分数,以及单词的可能变体。我们先进行词干提取,然后统计字符串之间匹配词的数量。如果这种类型的匹配在您的问题中有意义,那么首先进行词干提取可能是个好主意。
当然,当你阻止时你会丢失信息,但你获得了减少一些噪音的能力。

关于algorithm - 在 K-Means 聚类中使用词干提取,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17723134/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com