gpt4 book ai didi

nlp - 为什么word2Vec使用余弦相似度?

转载 作者:行者123 更新时间:2023-12-02 03:17:41 25 4
gpt4 key购买 nike

我一直在阅读有关 Word2Vec 的论文(例如 this one ),并且我认为我理解训练向量以最大化在相同上下文中找到其他单词的概率。

但是,我不明白为什么余弦是单词相似度的正确衡量标准。余弦相似度表示两个向量指向同一方向,但它们的大小可能不同。

例如,余弦相似度对于比较文档的词袋是有意义的。两个文档的长度可能不同,但单词的分布相似。

为什么不使用欧几里德距离呢?

谁能解释一下为什么余弦相似度适用于 word2Vec?

最佳答案

这两个距离指标可能密切相关,因此您使用哪一个可能并不重要。正如您所指出的,余弦距离意味着我们根本不必担心向量的长度。

这篇论文表明,单词的频率和word2vec向量的长度之间存在关系。 http://arxiv.org/pdf/1508.02297v1.pdf

关于nlp - 为什么word2Vec使用余弦相似度?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38423387/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com