gpt4 book ai didi

matrix - 实现注意力池网络问答的问题

转载 作者:行者123 更新时间:2023-12-01 23:52:46 27 4
gpt4 key购买 nike

我正在关注this论文实现和注意力池网络构建问答系统。在2.1章中,谈到了CNN层:

Extract from the original paper, chapter 2.1

其中 q_emb 是一个问题,其中每个标记(单词)都是使用 word2vec 嵌入的。 q_emb 的形状为 (d, M)d 是词嵌入的维度,M 是问题的长度。类似地,a_emb 是形状为 (d, L) 的答案的嵌入。我的问题是:卷积是如何完成的以及两个操作的 W_1b_1 怎么可能相同?在我看来,至少 b_1 在每种情况下都应该有不同的维度(它应该是一个矩阵,而不是一个向量......)。

目前我已经在 PyTorch 中实现了此操作:

### Input is a tensor of shape (batch_size, 1, M or L, d*k)
conv2 = nn.Conv2d(1, c, (d*k, 1))

最佳答案

我发现这篇论文的作者相信读者能够在这里假设/弄清楚很多事情。根据我的阅读,我可以收集到以下内容:

  1. W1 应该是 1 X dk 矩阵,因为这是获得 Q 作为 的唯一有意义的形状>c X M 矩阵。
  2. 假设如此,b1 不必是矩阵。从上面,你可以得到一个 c X 1 X M 矩阵,它可以很容易地 reshape 为 c X M 矩阵,并且 b1 可以是一个 c X 1 向量可以被广播并添加到矩阵的其余部分。

由于 cdk 是超参数,因此您可以轻松拥有相同的 W1b1 适用于 QA

这就是我目前的想法,如果有什么问题我会重新阅读和编辑。

关于matrix - 实现注意力池网络问答的问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52531615/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com