gpt4 book ai didi

python - 为什么我的文本聚类会这样做

转载 作者:太空宇宙 更新时间:2023-11-04 03:04:47 24 4
gpt4 key购买 nike

我有一个带有产品名称的未标记数据集。例如,棒球衫、飞行员夹克、活跃的经典平角裤等。

我用数据创建了一个 tf-idf 矩阵,然后在该矩阵上运行了 k-means。我绘制了一个簇内平方和来找到最好的 k,它是 5。

聚类后我计算出文档之间的余弦相似度

# cosine similarity between each document
from sklearn.metrics.pairwise import cosine_similarity
dist = 1.0 - cosine_similarity(tfidf_matrix)
print dist

然后我在 dist 上使用 MDS 将其减少到二维,这样我就可以绘制集群

from sklearn.manifold import MDS
mds = MDS(n_components=2, dissimilarity="precomputed", random_state=1)
xs, ys = pos[:, 0], pos[:, 1]

除圆周外,聚类图看起来还不错。它这样做是有原因的吗?其余的星团似乎聚集在一个相似的区域周围。

enter image description here

最佳答案

TF-IDF 仅适用于长文本

正因为如此,几乎每个文档都完全不同,并且它们像这样“散开”。

我怀疑 k-means 是否有效。

关于python - 为什么我的文本聚类会这样做,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39801020/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com