python - word2vec 负采样 skip gram 模型的正确梯度-6ren

python - word2vec 负采样 skip gram 模型的正确梯度

转载作者：太空宇宙更新时间：2023-11-03 11:40:49

24

4

我正在尝试使用负采样在 python 中实现 skip-gram word2vec。根据我的理解，我应该通过 Mikolov Et al 最大化论文中的等式 (4) .

我已经计算了这个等式相对于 Vc、U 和 U_rand 的梯度。其中Vc为中心词对应的中心向量，U为中心词上下文中某个词对应的上下文向量，U_rand为随机采样词的上下文向量。

然后我计算每个单词和上下文单词组合的成本函数，将它们相加并打印出整个语料库的总和。我运行了几次，但我没有看到整个语料库成本总和的改善。成本反复上升然后下降。

我得到了以下渐变

grad J with respect to Vc = (1-sigma(V•U))*U - Summation over random vectors (1-sigma(-V•U_rand))*U_rand

grad J with respect to U = (1-sigma(V•U))*V

grad J with respect to U_rand = (1-sigma(-V•U_rand))*-V

说到这里，我有几个问题:

这些渐变是否正确？
我应该朝梯度方向迈出一步吗？ (与梯度的负值相反)对我来说，我应该是因为我们正在最大化成本函数
对于随机抽取的词，我们是使用它的中心词表示还是上下文工作表示。来 self 在youtube上观看的斯坦福讲座它似乎是它的上下文向量。但是这个source似乎不同。
将整个语料库的所有成本函数结果相加是否是一种有效的改进方法？ (我不明白为什么不)

最佳答案

我不明白你的问题 2-4。好像你不知道你不知道什么。

首先，Skip-Gram(SG 和 SGNS)具有以下成本函数(derivation of cost function):

以上等式适用于批量梯度下降 - 在扫描整个大小为 T 的语料库后进行一次更新。这是低效的，因为 T 在 NLP 应用程序中非常大。因此，我们使用 Stochastic Gradient Descent (SGD) 更新每个训练样本的权重:

SGNS 使用 sigmoid计算二进制概率分布的函数。 mikolove 论文的等式(4)代替了上面的成本函数: :

w是输入词，h是隐藏层。 h 相当于w 的词向量，因为输入层是one-hot编码的。 c_pos是positive word的词向量，c_neg是randomly drawn的词向量来自 noise distribution 的否定词. W_neg 表示所有 K 词向量的否定词。

任何机器学习模型的一般更新方程是:

就 theta 对 SGNS 成本函数求导:

从这一点出发，我们需要计算输入权重矩阵和输出权重矩阵的梯度:

输入权重矩阵的梯度

在SG和SGNS中，输入权重矩阵中只有一个与输入词对应的词向量被更新。由于输入词的词向量等同于隐藏层，我们对h取成本函数J的导数:

更新方程为:

输出权重矩阵的梯度

c_pos 和c_neg 都是来自输出权重矩阵的词向量，我们分别对它们取梯度:

在这里，σ(c_j⋅h)−t_j 被称为 prediction error .随着模型优化权重，这个预测误差将被最小化。

我是最大化还是最小化？

机器学习中的惯例是最小化代价函数J。但是许多论文说他们最大化...... bla bla bla 的概率。这是为什么？

负采样的最初思想是最大化观察到正对的概率并最小化观察到负对的概率。在数学上，它可以翻译为:

argmax theta 表示我们通过调整theta 来最大化跟随概率。在机器学习中，通常的做法是对目标方程取自然对数以简化推导(为什么要取自然对数？阅读 here )。然后:

作者说他们最大化概率。然而，在机器学习中，惯例是最小化代价函数，而不是最大化它。为了遵守惯例，我们在等式 (11) 中添加一个负号。这是可以做到的，因为最小化负对数似然等同于最大化正对数似然。经过一些数学运算 (derivation)，我们便获得了可以最小化的成本函数:

关于python - word2vec 负采样 skip gram 模型的正确梯度，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/49745192/

24

4

0

文章推荐： java - 为什么不能将 android.os.build.VERSION 解析为变量？

文章推荐： android - 如何停止或销毁正在运行的线程

文章推荐： php - 无法在 Android 中使用 PHP 脚本插入 MySQL

文章推荐： Android:快速获取 GPS 位置

php - 负(负)零等于 0 在 PHP 中吗？
我有一个非常基本的 MySQL 查询，它从数据库表中读取行并将行值添加或减去定义为 $total_balance 的 PHP 字符串。例如； $statement_details_query = m
html - 负 margin-left 工作正常，负 margin-right 创建滚动条
我有 following fiddle ，请注意，如果您使输出的宽度变小，图像将被覆盖并且不会出现滚动条 - 完美。如果我attempt the same effect on the right ，
python正则表达式向前看正+负
这个正则表达式将得到 456。我的问题是为什么它不能是 1-234-56 中的 234 ？ 56 是否限定 (?!\d)) 模式，因为它不是单个数字。 (?!\d)) 寻找的起始点在哪里？ impor
c - 指针差异类型(负)
我需要知道两个子结构之间的内存距离 (&my_type.a - &my_tape.b.c) 结果的类型是什么？我需要将它转换为 (signed int)，所以显然它是别的东西。最佳答案根据 C11
java - 负 serialVersionUID？
我遇到了一个扩展异常的异常处理程序类，如下所示: public class AppFileReaderException extends Exception { //Explicit seri
c++ - 负 RGB 值
如何可视化负 RGB 值？根据 OpenCV 文档: CV_8S - 8 位有符号整数 (-128..127) 这是否意味着 -128 表示 0 而 127 表示 255？如果是，那我们为什么需要
java - 子字符串尝试处理错误(负)索引
我这里有一段代码给我带来了麻烦: idIndex = panoBuffer.indexOf("\"photo_id\":"); System.out.println(idIndex);
java - 计算胜/负、胜率和总胜率
我刚刚练习 Java，对此还很陌生。我只是想创建一个随机数生成器程序来跟踪玩家的获胜、失败、获胜百分比和总获胜金额。该程序的逻辑是，玩家每次 session 有 3 次机会，计算机会生成一个随机数，玩
检查输入是否为数字、是否带小数点、或正/负
因此，我们被要求创建一个程序，使用户能够从 1-6 个有关矩阵运算的选项中进行选择。在每个用户的输入中，我们需要检查该输入是否适合要完成的操作(程序应该接受整数或 float ，正数或负数)。如果不满
c - 输出保持在同一列，忽略 "-"(负)
这是我期望的输出 x |x| 1.2 1.2 -2.3 2.3 3.4 3.4 但我一直收到这个: x |x| 1
php - 打印正/负 date_diff
假设我有这个: $date1=date_create(date('H:I', strtotime('8:00'))); $date2=date_create(date('H:I', strtotime
ruby - 负 FixNum 的无符号等价物
如何确定负 FixNum 的无符号解释？ # unexpected, true (~0b01111011).to_s(2) == ("-" + (~0b01111011).abs.to_s(2)) #
php - 负 SQL 查询
这是一个用于“邀请您的 friend 加入此群组”脚本的快速 SQL 查询。我有 2 个表:users 和 group_members。我正在尝试执行一个查询，选择我所有的 friend ——由第一
c++ - 负 ASCII 值
负 ASCII 值有什么意义？ int a = '«'; //a = -85 but as in ASCII table '<<' should be 174 最佳答案没有负数ASCII值。 ASC
mysql - 我如何选择每支球队的最后五场比赛并确定胜/负/平局？
我知道用 PHP 可以做到这一点，但是有没有办法只用 MySQL 来做到这一点？我有这个数据库: --------------------------------------------------
php - 负 float 日期
我在变量中有一个时间戳 $data = (float) -2208988800; 是否可以根据这些数据创建正确的日期？date("d.M.Y", $data) 返回“07.02.2036” 最佳答案
c# - 将括号(负)转换为双
你好我如何将括号格式的负值转换为 double 值。目前我有这个。 Payment.Text = Calc_Payment().ToString("#,##0.00;(#,##0.00)"); 将支付
位域与(负)整数、未定义行为或编译器错误的比较？
这是一个小程序。这应该打印 0 或 1，还是它有未定义的行为？ #include struct S0 { unsigned f1 : 1; }; struct S0 s; int main (v
python - 负 'Start training from score'
运行 lgb.cv 时，我有时会从日志中看到“从分数开始训练”后的负数。想知道这个数字到底是什么意思，单位是什么？是根据参数中指定的指标吗？以下是摘录: [LightGBM] [Info] Total
python - Tensorflow，负 KL 散度
我正在使用变分自动编码器类型模型，我的损失函数的一部分是均值为 0 和方差为 1 的正态分布与另一个均值和方差由我的模型预测的正态分布之间的 KL 散度。我用以下方式定义了损失: def kl_lo

首页

博学

6Ren·AI

商城

python - word2vec 负采样 skip gram 模型的正确梯度