gpt4 book ai didi

python - 对 TF-IDF 特征向量中的特定特征进行加权,以实现 k 均值聚类和余弦相似度

转载 作者:行者123 更新时间:2023-11-30 09:21:55 25 4
gpt4 key购买 nike

我有一个 TF-IDF 特征向量数组。我想使用两种方法在数组中找到相似的向量:

  1. 余弦相似度
  2. k 均值聚类

使用 Scikit Learn,这个过程非常简单。

现在我想对某些特征进行加权,以便它们比其他特征对结果的影响更大。例如,我可能想对 TF-IDF 向量的前 100 个元素进行加权,以便这些特征比其余特征更能表明相似性。

如何对特征向量中的某些特征进行有意义的加权?对于我上面列出的每种相似性算法,对某些特征进行加权的过程是否相同?

最佳答案

据我了解,TFIDF 矩阵中的值较低意味着这些单词的重要性较低。因此,一种方法是降低矩阵中您考虑的那些列的值。

scikit 中的数组是稀疏的,因此为了测试和调试,您可能需要转换为常规矩阵。我还使用 xlsxwriter 来概述应用 TFIDF 和 KMeans++ 时实际发生的情况(请参阅)https://www.dbc-enterprise-it-consulting.com/text-classifier/ .

关于python - 对 TF-IDF 特征向量中的特定特征进行加权,以实现 k 均值聚类和余弦相似度,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32719363/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com