gpt4 book ai didi

python - 了解 scikit-learn KMeans 返回的 "score"

转载 作者:IT老高 更新时间:2023-10-28 21:12:44 33 4
gpt4 key购买 nike

我对一组文本文档(大约 100 个)应用了聚类。我使用 TfIdfVectorizer 将它们转换为 Tfidf 向量,并将向量作为输入提供给 scikitlearn.cluster.KMeans(n_clusters=2, init='k-means++', max_iter=100, n_init=10)。现在当我

model.fit()
print model.score()

在我的向量上,如果所有文本文档都非常相似,我会得到一个非常小的值,如果文档非常不同,我会得到一个非常大的负值。

我的基本目的是查找哪一组文档相似,但有人可以帮我理解这个 model.score() 值究竟意味着什么适合吗?我如何使用这个值来证明我的发现是正确的?

最佳答案

文档选择的词有点困惑。它说“与 K-means 目标上 X 的值相反。”这意味着 K-means 目标的负数。

K-Means 目标

K-means 的目标是减少点与其各自簇质心的距离的平方和。它还有其他名称,如 J-Squared 误差函数、J-score 或簇内平方和。该值说明集群的内部一致性。 (越少越好)

The objective function can be directly obtained from the following method.

model.inertia_

关于python - 了解 scikit-learn KMeans 返回的 "score",我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32370543/

33 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com