nlp - 在 Pytorch 中嵌入 3D 数据-6ren

nlp - 在 Pytorch 中嵌入 3D 数据

转载作者：行者123 更新时间：2023-12-04 06:07:02

24

4

我想实现字符级嵌入。

这是通常的词嵌入。

词嵌入

Input: [ [‘who’, ‘is’, ‘this’] ] 
-> [ [3, 8, 2] ]     # (batch_size, sentence_len)
-> // Embedding(Input)
 # (batch_size, seq_len, embedding_dim)

这就是我想要做的。

字符嵌入

Input: [ [ [‘w’, ‘h’, ‘o’, 0], [‘i’, ‘s’, 0, 0], [‘t’, ‘h’, ‘i’, ‘s’] ] ]
-> [ [ [2, 3, 9, 0], [ 11, 4, 0, 0], [21, 10, 8, 9] ] ]      # (batch_size, sentence_len, word_len)
-> // Embedding(Input) # (batch_size, sentence_len, word_len, embedding_dim)
-> // sum each character embeddings  # (batch_size, sentence_len, embedding_dim)
The final output shape is same as Word embedding. Because I want to concat them later.

虽然我尝试过，但我不确定如何实现 3-D 嵌入。你知道如何实现这样的数据吗？

def forward(self, x):
    print('x', x.size()) # (N, seq_len, word_len)
    bs = x.size(0)
    seq_len = x.size(1)
    word_len = x.size(2)
    embd_list = []
    for i, elm in enumerate(x):
        tmp = torch.zeros(1, word_len, self.embd_size)
        for chars in elm:
            tmp = torch.add(tmp, 1.0, self.embedding(chars.unsqueeze(0)))

由于 self.embedding 的输出，上面的代码出错了是 Variable .

TypeError: torch.add received an invalid combination of arguments - got (torch.FloatTensor, float, Variable), but expected one of:
 * (torch.FloatTensor source, float value)
 * (torch.FloatTensor source, torch.FloatTensor other)
 * (torch.FloatTensor source, torch.SparseFloatTensor other)
 * (torch.FloatTensor source, float value, torch.FloatTensor other)
      didn't match because some of the arguments have invalid types: (torch.FloatTensor, float, Variable)
 * (torch.FloatTensor source, float value, torch.SparseFloatTensor other)
      didn't match because some of the arguments have invalid types: (torch.FloatTensor, float, Variable)

更新

我可以做到这一点。但是 for对批处理无效。你们知道更有效的方法吗？

def forward(self, x):
    print('x', x.size()) # (N, seq_len, word_len)
    bs = x.size(0)
    seq_len = x.size(1)
    word_len = x.size(2)
    embd = Variable(torch.zeros(bs, seq_len, self.embd_size))
    for i, elm in enumerate(x): # every sample
        for j, chars in enumerate(elm): # every sentence. [ [‘w’, ‘h’, ‘o’, 0], [‘i’, ‘s’, 0, 0], [‘t’, ‘h’, ‘i’, ‘s’] ]
            chars_embd = self.embedding(chars.unsqueeze(0)) # (N, word_len, embd_size) [‘w’,‘h’,‘o’,0]
            chars_embd = torch.sum(chars_embd, 1) # (N, embd_size). sum each char's embedding
            embd[i,j] = chars_embd[0] # set char_embd as word-like embedding

    x = embd # (N, seq_len, embd_dim)

更新2

这是我的最终代码。谢谢你，瓦西艾哈迈德!

def forward(self, x):
    # x: (N, seq_len, word_len)
    input_shape = x.size()
    bs = x.size(0)
    seq_len = x.size(1)
    word_len = x.size(2)
    x = x.view(-1, word_len) # (N*seq_len, word_len)
    x = self.embedding(x) # (N*seq_len, word_len, embd_size)
    x = x.view(*input_shape, -1) # (N, seq_len, word_len, embd_size)
    x = x.sum(2) # (N, seq_len, embd_size)

    return x

最佳答案

我假设你有一个形状为 BxSxW 的 3d 张量在哪里:

B = Batch size
S = Sentence length
W = Word length

并且您已按如下方式声明嵌入层。

self.embedding = nn.Embedding(dict_size, emsize)

在哪里:

dict_size = No. of unique characters in the training corpus
emsize = Expected size of embeddings

所以，现在你需要转换形状为 BxSxW 的 3d 张量到形状为 BSxW 的二维张量并将其交给嵌入层。

emb = self.embedding(input_rep.view(-1, input_rep.size(2)))

emb的形状将是 BSxWxE哪里 E是嵌入大小。您可以将生成的 3d 张量转换为 4d 张量，如下所示。

emb = emb.view(*input_rep.size(), -1)

emb的最终形状将是 BxSxWxE这就是你所期待的。

关于nlp - 在 Pytorch 中嵌入 3D 数据，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/47205762/

24

4

0

文章推荐： mod-rewrite - 如何将所有 *.html 页面重定向到 *.php 页面？

文章推荐： .Net Framework 2.0 SP2 要求？

文章推荐： visual-studio-2013 - 你如何在visual studio中添加对dll的引用？

循环神经网络设计同样可以使用预训练词“嵌入”
序言：重新训练人工智能大型模型是一项复杂且高成本的任务，尤其对于当前的LLM（大型语言模型）来说，全球99.99%的企业难以承担。这是因为模型训练需要巨大的资源投入、复杂的技术流程以及大量的人力支
“嵌入”在大语言模型中是解决把句子转换成向量表示的技术
上一篇：《人工智能是这样理解“情绪”的》序言：这段话要优化吗？““嵌入”是一种将句子、单词或其他语言单位转换为向量表示的技术。这个向量通常位于高维空间中，它以一种能够表达相似性的方式编码出文本
html - 样式对象的内容/嵌入
我正在开发一个小型 Web 应用程序，其中有一个 object 元素(包含一个 embed)，用于显示小型文档。文档可以是 PDF 或纯文本文件 (.txt)，我以 base64 字符串的形式从 W
嵌入 ocaml 解释器
我有一种小型语言，它基本上是 OCaml 的扩展(实际上它是 OCaml 子集的扩展，但这并不重要)。为了简化事情，我有一个“转义”表达式，可以将 OCaml 文字传输到我的语言中(因此您可以将任意
flash - 嵌入、对象和视频标签之间的区别？
据我所知，我知道 embed tag用于嵌入来自 youtube 等网站的视频，object tag用于 Flash 视频和 video tags下HTML5 .但我很好奇这些标签的深入细节以及作为开
WebKit、嵌入、动态资源
我假设您可以将 WebKit 嵌入到另一个桌面应用程序中并向其发送一个字符串，例如: Hello world! 它将显示在窗口内。我的问题是，如果我将其压缩表示(JPEG 转储)加载到内存中，我该如
php - YouTube取回/嵌入
有没有一种可能的方式，我可以从youtube检索我的最新视频的列表(带有缩略图)，使用cron作业将嵌入的代码存储在数据库中，这样我就可以在单独的页面上显示视频，而不是将用户引向youtube观看视频
youtube 嵌入 - 全屏按钮不起作用
最近我发现我的网站上嵌入的 YouTube 视频存在问题 - 全屏按钮不再起作用。确实有过一次。该按钮是可见的，但单击时没有任何反应。我正在使用 Youtube Javascript API 将视频
keras - 嵌入 Keras
在 Keras 内置函数中嵌入使用哪种算法？Word2vec？手套？其他？ https://keras.io/layers/embeddings/ 最佳答案简短的回答是都不是。本质上，GloVe 的
Keras:嵌入 LSTM
在 LSTM 上用于建模 IMDB 序列数据 ( https://github.com/fchollet/keras/blob/master/examples/imdb_lstm.py ) 的 ker
用于分类特征的 TensorFlow 嵌入
在机器学习中，通常用 one-hot-encoding 表示分类(特别是:名义)特征。 .我正在尝试学习如何使用 tensorflow 的嵌入层来表示分类问题中的分类特征。我有 tensorflow
iOS 嵌入 View
我有一个使用 Storyboard的应用程序，我想在我的主视图中有一个 View ，并让它在场景中的不同 View 之间切换。所以目前我有“容器对象”，我可以在其中嵌入另一个 viewControl
PHP 嵌入 JavaScript
在我的项目中我遇到了这样的情况。 function fonsubmit() { alert('Out side PHP'); //Here the php code starts
java - 嵌入 JFileChooser
我正在尝试添加一个JFileChooser，它选择父目录并允许用户输入文件名称。我知道 showSaveDialog 和 showOpenDialog 方法，但我不想创建新窗口。这是我到目前为止所拥
WordPress/嵌入/链接
我注意到我的网站创建了这样的链接:www.domain.com/post-name/embed/ 恐怕这可能会影响 SEO。是否可以禁用此功能？最佳答案显然这是默认的 WordPress 行为。此
python - 嵌入 python
我试图从 C 代码调用 python 函数，我遵循了 here 中的示例我也有正确的包含文件目录、库目录和链接 python32.lib(我使用 python 32)但是错误是 python/C A
powershell - msiexec.exe - 嵌入
我正在使用基于云的 EDR 平台来监控客户端受损网络上发生的进程。我最近经常看到的是使用选项“-Embedding”调用的 msiexec.exe C:\Windows\System32\MsiExe
python - 并行运行 Flair 嵌入
我有一个列表，其中包含数百万个需要嵌入的句子。我正在使用 Flair以此目的。这个问题似乎应该是并行的。但是，当我尝试优化时，我的性能要么没有提高，要么只是停滞不前。我将我的句子定义为一个简单的字符
嵌入 Flutter YouTube 视频
我想在我的应用程序中添加嵌入的 YouTube 视频:我该怎么做？我有这个 import 'package:youtube_player/youtube_player.dart'; import 'p
json.net SelectToken 嵌入 "."
我有 json 看起来像: myjson = {"queries":{"F.SP": 27}} 所以与 queryResults = JObject.Parse(jsonString) 我可以 fir

首页

博学

6Ren·AI

商城

nlp - 在 Pytorch 中嵌入 3D 数据