gpt4 book ai didi

machine-learning - word2vec中单词的向量代表什么?

转载 作者:行者123 更新时间:2023-11-30 08:21:26 24 4
gpt4 key购买 nike

word2vec是 Google 的开源工具:

  • 它为每个单词提供一个浮点值向量,它们到底代表什么?

  • 还有一篇关于paragraph vector的论文谁能解释一下他们如何使用 word2vec 来获取段落的固定长度向量。

最佳答案

TLDR:Word2Vec 正在 N 维的潜在空间中构建单词投影(嵌入)(N 是单词的大小)获得的向量)。浮点值表示单词在这个 N 维空间中的坐标。

潜在空间投影背后的主要思想是将对象放置在不同的连续维度空间中,即您的对象将具有比基本对象更有趣的微积分特征的表示(向量)。

对于单词来说,有用的是你有一个密集向量空间,它编码相似性(即树的向量与木头更相似,而不是与舞蹈相似)。这与经典的稀疏单热或“词袋”编码相反,后者将每个单词视为一个维度,使它们在设计上正交(即树、木头和舞蹈)它们之间的距离相同)

Word2Vec 算法执行以下操作:

想象你有一个句子:

The dog has to go ___ for a walk in the park.

你显然想用“outside”这个词来填补空白,但你也可以用“out”。 w2v 算法就是受到这个想法的启发。您希望所有填空的单词都靠近,因为它们属于在一起 - 这称为分布假设 - 因此单词“out”和“outside”会更接近,而像这样的单词“胡萝卜”会更远。

这就是 word2vec 背后的“直觉”。对于正在发生的事情的更理论解释,我建议阅读:

对于段落向量,其思想与 w2v 中的相同。每个段落都可以用它的单词来表示。论文提出了两种模型。

  1. 采用“词袋”方式(pv-dbow 模型),其中使用一个固定长度段落向量来预测其单词。
  2. 通过在单词上下文中添加固定长度段落标记(pv-dm 模型)。通过逆向传播梯度,他们可以“感觉到”缺失了什么,将具有相同单词/主题的段落“缺失”紧密地结合在一起。

Bits from the article :

The paragraph vector and word vectors are averaged or concatenated to predict the next word in a context. [...] The paragraph token can be thought of as another word. It acts as a memory that remembers what is missing from the current context – or the topic of the paragraph

为了充分理解这些向量的构建方式,您需要了解神经网络的构建方式以及反向传播算法的工作原理。 (我建议从 this video 和 Andrew NG 的 Coursera 类(class)开始)

注意: Softmax 只是一种表达分类的奇特方式,w2v 算法中的每个单词都被视为一个类。分层softmax/负采样是加速softmax和处理大量类的技巧。

关于machine-learning - word2vec中单词的向量代表什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27032517/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com