gpt4 book ai didi

向量空间模型 : Cosine Similarity vs Euclidean Distance

转载 作者:行者123 更新时间:2023-12-02 14:07:09 26 4
gpt4 key购买 nike

我有分类文本语料库。从这些我创建向量。每个向量对应一个文档。向量分量是本文档中计算为 TFIDF 值的单词权重。接下来,我构建一个模型,其中每个类都由单个向量表示。模型具有与语料库中的类一样多的向量。模型向量的分量计算为从此类向量中获取的所有分量值的平均值。对于未分类的向量,我通过计算这些向量之间的余弦来确定与模型向量的相似性。

问题:

1) 我可以使用未分类向量和模型向量之间的欧几里得距离来计算它们的相似度吗?

2)为什么欧几里得距离不能代替两个向量之间夹角的余弦作为相似性度量,反之亦然?

谢谢!

最佳答案

一种非正式但相当直观的思考方式是考虑向量的两个组成部分:方向幅度

方向是向量的“偏好”/“风格”/“情感”/“潜在变量”,而幅度是向量的“偏好”/“风格”/“情感”/“潜在变量”方向。

在对文档进行分类时,我们希望根据整体情绪对它们进行分类,因此我们使用角度距离。

欧几里德距离很容易受到按 L2 范数(二维情况下的幅度)而不是方向进行聚类的文档的影响。 IE。方向完全不同的向量会被聚类,因为它们到原点的距离相似。

关于向量空间模型 : Cosine Similarity vs Euclidean Distance,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19410270/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com