- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我正在尝试使用负采样在 python 中实现 skip-gram word2vec。根据我的理解,我应该通过 Mikolov Et al 最大化论文中的等式 (4) .
我已经计算了这个等式相对于 Vc、U 和 U_rand 的梯度。其中Vc为中心词对应的中心向量,U为中心词上下文中某个词对应的上下文向量,U_rand为随机采样词的上下文向量。
然后我计算每个单词和上下文单词组合的成本函数,将它们相加并打印出整个语料库的总和。我运行了几次,但我没有看到整个语料库成本总和的改善。成本反复上升然后下降。
我得到了以下渐变
grad J with respect to Vc = (1-sigma(V•U))*U - Summation over random vectors (1-sigma(-V•U_rand))*U_rand
grad J with respect to U = (1-sigma(V•U))*V
grad J with respect to U_rand = (1-sigma(-V•U_rand))*-V
说到这里,我有几个问题:
最佳答案
我不明白你的问题 2-4。好像你不知道你不知道什么。
首先,Skip-Gram(SG 和 SGNS)具有以下成本函数(derivation of cost function):
以上等式适用于批量梯度下降 - 在扫描整个大小为 T
的语料库后进行一次更新。这是低效的,因为 T
在 NLP 应用程序中非常大。因此,我们使用 Stochastic Gradient Descent (SGD) 更新每个训练样本的权重:
SGNS 使用 sigmoid计算二进制概率分布的函数。 mikolove 论文的等式(4)代替了上面的成本函数: :
w
是输入词,h
是隐藏层。 h
相当于w
的词向量,因为输入层是one-hot编码的。 c_pos
是positive word的词向量,c_neg
是randomly drawn的词向量来自 noise distribution 的否定词. W_neg
表示所有 K
词向量的否定词。
任何机器学习模型的一般更新方程是:
就 theta 对 SGNS 成本函数求导:
从这一点出发,我们需要计算输入权重矩阵和输出权重矩阵的梯度:
输入权重矩阵的梯度
在SG和SGNS中,输入权重矩阵中只有一个与输入词对应的词向量被更新。由于输入词的词向量等同于隐藏层,我们对h
取成本函数J
的导数:
更新方程为:
输出权重矩阵的梯度
c_pos
和c_neg
都是来自输出权重矩阵的词向量,我们分别对它们取梯度:
在这里,σ(c_j⋅h)−t_j
被称为 prediction error .随着模型优化权重,这个预测误差将被最小化。
我是最大化还是最小化?
机器学习中的惯例是最小化代价函数J
。但是许多论文说他们最大化...... bla bla bla 的概率。这是为什么?
负采样的最初思想是最大化观察到正对的概率并最小化观察到负对的概率。在数学上,它可以翻译为:
argmax theta
表示我们通过调整theta
来最大化跟随概率。在机器学习中,通常的做法是对目标方程取自然对数以简化推导(为什么要取自然对数?阅读 here )。然后:
作者说他们最大化概率。然而,在机器学习中,惯例是最小化代价函数,而不是最大化它。为了遵守惯例,我们在等式 (11) 中添加一个负号。这是可以做到的,因为最小化负对数似然等同于最大化正对数似然。经过一些数学运算 (derivation),我们便获得了可以最小化的成本函数:
关于python - word2vec 负采样 skip gram 模型的正确梯度,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49745192/
我有一个非常基本的 MySQL 查询,它从数据库表中读取行并将行值添加或减去定义为 $total_balance 的 PHP 字符串。 例如; $statement_details_query = m
我有 following fiddle ,请注意,如果您使输出的宽度变小,图像将被覆盖并且不会出现滚动条 - 完美。 如果我attempt the same effect on the right ,
这个正则表达式将得到 456。我的问题是为什么它不能是 1-234-56 中的 234 ? 56 是否限定 (?!\d)) 模式,因为它不是单个数字。 (?!\d)) 寻找的起始点在哪里? impor
我需要知道两个子结构之间的内存距离 (&my_type.a - &my_tape.b.c) 结果的类型是什么?我需要将它转换为 (signed int),所以显然它是别的东西。 最佳答案 根据 C11
我遇到了一个扩展异常的异常处理程序类,如下所示: public class AppFileReaderException extends Exception { //Explicit seri
如何可视化负 RGB 值? 根据 OpenCV 文档: CV_8S - 8 位有符号整数 (-128..127) 这是否意味着 -128 表示 0 而 127 表示 255? 如果是,那我们为什么需要
我这里有一段代码给我带来了麻烦: idIndex = panoBuffer.indexOf("\"photo_id\":"); System.out.println(idIndex);
我刚刚练习 Java,对此还很陌生。我只是想创建一个随机数生成器程序来跟踪玩家的获胜、失败、获胜百分比和总获胜金额。该程序的逻辑是,玩家每次 session 有 3 次机会,计算机会生成一个随机数,玩
因此,我们被要求创建一个程序,使用户能够从 1-6 个有关矩阵运算的选项中进行选择。在每个用户的输入中,我们需要检查该输入是否适合要完成的操作(程序应该接受整数或 float ,正数或负数)。如果不满
这是我期望的输出 x |x| 1.2 1.2 -2.3 2.3 3.4 3.4 但我一直收到这个: x |x| 1
假设我有这个: $date1=date_create(date('H:I', strtotime('8:00'))); $date2=date_create(date('H:I', strtotime
如何确定负 FixNum 的无符号解释? # unexpected, true (~0b01111011).to_s(2) == ("-" + (~0b01111011).abs.to_s(2)) #
这是一个用于“邀请您的 friend 加入此群组”脚本的快速 SQL 查询。 我有 2 个表:users 和 group_members。我正在尝试执行一个查询,选择我所有的 friend ——由第一
负 ASCII 值有什么意义? int a = '«'; //a = -85 but as in ASCII table '<<' should be 174 最佳答案 没有负数ASCII值。 ASC
我知道用 PHP 可以做到这一点,但是有没有办法只用 MySQL 来做到这一点? 我有这个数据库: --------------------------------------------------
我在变量中有一个时间戳 $data = (float) -2208988800; 是否可以根据这些数据创建正确的日期?date("d.M.Y", $data) 返回“07.02.2036” 最佳答案
你好我如何将括号格式的负值转换为 double 值。目前我有这个。 Payment.Text = Calc_Payment().ToString("#,##0.00;(#,##0.00)"); 将支付
这是一个小程序。这应该打印 0 或 1,还是它有未定义的行为? #include struct S0 { unsigned f1 : 1; }; struct S0 s; int main (v
运行 lgb.cv 时,我有时会从日志中看到“从分数开始训练”后的负数。想知道这个数字到底是什么意思,单位是什么?是根据参数中指定的指标吗?以下是摘录: [LightGBM] [Info] Total
我正在使用变分自动编码器类型模型,我的损失函数的一部分是均值为 0 和方差为 1 的正态分布与另一个均值和方差由我的模型预测的正态分布之间的 KL 散度。 我用以下方式定义了损失: def kl_lo
我是一名优秀的程序员,十分优秀!