作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一个 TF-IDF 特征向量数组。我想使用两种方法在数组中找到相似的向量:
使用 Scikit Learn,这个过程非常简单。
现在我想对某些特征进行加权,以便它们比其他特征对结果的影响更大。例如,我可能想对 TF-IDF 向量的前 100 个元素进行加权,以便这些特征比其余特征更能表明相似性。
如何对特征向量中的某些特征进行有意义的加权?对于我上面列出的每种相似性算法,对某些特征进行加权的过程是否相同?
最佳答案
据我了解,TFIDF 矩阵中的值较低意味着这些单词的重要性较低。因此,一种方法是降低矩阵中您考虑的那些列的值。
scikit 中的数组是稀疏的,因此为了测试和调试,您可能需要转换为常规矩阵。我还使用 xlsxwriter 来概述应用 TFIDF 和 KMeans++ 时实际发生的情况(请参阅)https://www.dbc-enterprise-it-consulting.com/text-classifier/ .
关于python - 对 TF-IDF 特征向量中的特定特征进行加权,以实现 k 均值聚类和余弦相似度,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32719363/
我是一名优秀的程序员,十分优秀!