gpt4 book ai didi

tensorflow - tensorflow embedding_lookup 是否可微分?

转载 作者:行者123 更新时间:2023-12-03 20:42:08 24 4
gpt4 key购买 nike

我遇到的一些教程,使用随机初始化的嵌入矩阵进行描述,然后使用 tf.nn.embedding_lookup 函数获取整数序列的嵌入。我的印象是,由于 embedding_matrix 是通过 tf.get_variable 获得的,优化器会添加适当的 ops 来更新它。

我不明白的是,反向传播是如何通过查找函数发生的,这似乎是硬而不是软。这个操作的梯度是多少?它的输入 ID 之一?

最佳答案

嵌入矩阵查找在数学上等价于单热编码矩阵的点积(参见 this question),这是一种平滑的线性运算。

例如,下面是对索引 3 的查找:

look-up

这是渐变的公式:

gradient

... 其中左侧是负对数似然的导数(即目标函数),x 是输入词,W 是嵌入矩阵和 delta 是误差信号。

tf.nn.embedding_lookup进行了优化,因此不会发生 one-hot 编码转换,但反向传播根据相同的公式工作。

关于tensorflow - tensorflow embedding_lookup 是否可微分?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48166721/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com