gpt4 book ai didi

machine-learning - 我应该在 K-Means 主题聚类中使用哪个指标?

转载 作者:行者123 更新时间:2023-11-30 09:57:37 24 4
gpt4 key购买 nike

我正在尝试实现k-means算法,输入是一堆文本文件,我想将它们聚类到不同的主题中。

第一步是将这些文本文件转换为矢量样本。

我的问题是,我应该使用下面哪个指标?为什么?

  1. 单词是否出现。
  2. 词频。
  3. TF-IDF。

最佳答案

最好的方法可能是为每个文档使用大约前 50 个左右的 TF-IDF 术语(不必正好是 50 个,您应该对这个数字进行试验)。使用完整的单词出现向量可能不会给您带来好的结果,因为 high dimensionality

或者,我建议探索 Latent Dirichlet Allocation并使用每个文档的主题比例作为聚类特征。

关于machine-learning - 我应该在 K-Means 主题聚类中使用哪个指标?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16370271/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com