gpt4 book ai didi

python - 将概念上相似的文档聚类在一起?

转载 作者:太空狗 更新时间:2023-10-30 00:08:22 25 4
gpt4 key购买 nike

这更像是一个概念性问题,而不是实际实现,我希望有人能澄清一下。我的目标如下:给定一组文档,我想对它们进行聚类,使属于同一聚类的文档具有相同的“概念”。

据我了解,Latent Semantic Analysis让我找到一个术语文档矩阵的低阶近似,即给定一个矩阵 X,它将分解 X 作为三个矩阵的乘积,其中一个是对角矩阵Σ:

SVD

现在,我将继续选择低秩近似,即仅从 Σ 中选择前 k 个值,然后计算 X'。一旦我有了这个矩阵,我就必须应用一些聚类算法,最终结果将是一组具有相似概念的聚类文档。这是应用聚类的正确方法吗?我的意思是,计算 X',然后在其上应用聚类,还是遵循其他一些方法?

此外,在某种程度上 related question我的,有人告诉我,随着维数的增加,邻居 的意义就消失了。在这种情况下,对来自 X' 的这些高维数据点进行聚类的理由是什么?我猜测对相似文档进行聚类的要求是现实世界的要求,在这种情况下,如何解决这个问题?

最佳答案

对于问题的第一部分:不,您不需要再执行任何“聚类”。您的奇异值分解已经提供了此类聚类。如果还有不清楚的地方,请详细了解一下你的链接Latent Semantic Analysis .

对于您的第二部分:请先弄清楚您问题的第一部分,然后在此基础上重述您问题的这一部分。

关于python - 将概念上相似的文档聚类在一起?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6615833/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com