gpt4 book ai didi

algorithm - tf-idf:我理解的对吗?

转载 作者:塔克拉玛干 更新时间:2023-11-03 02:52:41 26 4
gpt4 key购买 nike

我对做一些文档聚类很感兴趣,现在我正在考虑为此使用 TF-IDF。

如果我没记错的话,TF-IDF 特别用于评估给定查询 文档的相关性。如果我没有特定的查询,我如何将 tf-idf 应用于聚类?

最佳答案

用于文档聚类。最好的方法是使用 k-means 算法。如果您知道您拥有多少种类型的文档,您就知道 k 是什么。

让它在文档上工作:

a) 假设随机选择前 k 个文档。

b) 使用文档与聚类的最小距离将每个文档分配给一个聚类。

c) 将文档分配到簇后,通过取每个簇的质心将K个新文档作为簇。

现在,问题是

a) 如何计算2个文档之间的距离:它只不过是文档术语与初始聚类的余弦相似度。这里的 Terms 只不过是 TF-IDF(之前为每个文档计算的)

b) Centroid should be:给定术语/编号的 TF-IDF 之和。文件。对集群中的所有可能项执行此操作。这将为您提供另一个 n 维文档。

希望对您有所帮助!

关于algorithm - tf-idf:我理解的对吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2536278/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com