python - Tensorflow 嵌入层词汇量大小-6ren

python - Tensorflow 嵌入层词汇量大小

转载作者：行者123 更新时间：2023-12-03 08:45:31

我正在学习 Tensorflow，并且遇到了 Tensorflow 中的嵌入层，用于学习自己的词嵌入。该层采用以下参数:

keras.layers.Embedding(input_dim, 
                       output_dim, 
                       embeddings_initializer='uniform',
                       embeddings_regularizer=None, 
                       activity_regularizer=None, 
                       embeddings_constraint=None, 
                       mask_zero=False, 
                       input_length=None)

“输入暗淡”应与词汇表(即唯一单词)大小相同。如果我想将词汇量限制为仅前 25000 个最常见的单词 - 我应该怎么做？

我可以简单地将“input_dim”更改为 25000 还是我必须浏览我的语料库并用 token 替换前 25000 个单词之外的任何单词？

最佳答案

实际上，如果你使用tensorflow.keras，你必须确保在你的语料库中，标记不超过嵌入层的vocabulary_size或input_dim，否则你会得到错误。

如果您使用keras，那么您只需更改嵌入层中的input_dim，而无需更改语料库或标记中的任何内容。 keras 将用 零 向量替换词汇表标记。

首先，如果使用tensorflow.keras会出现错误。

tensorflow

from tensorflow.keras.models import Model
from tensorflow.keras.layers import Embedding, Input
import numpy as np

ip = Input(shape = (3,))
emb = Embedding(1, 2, trainable=True, mask_zero=True)(ip)

model = Model(ip, emb)
input_array = np.array([[5, 3, 1], [1, 2, 3]]) # out of vocabulary

model.compile("rmsprop", "mse")

output_array = model.predict(input_array)

print(output_array)

print(output_array.shape)

model.summary()

但是如果我使用 keras 2.3.1，我不会收到任何错误。

keras 2.3.1

from keras.models import Model
from keras.layers import Embedding, Input
import numpy as np

ip = Input(shape = (3,))
emb = Embedding(1, 2, trainable=True, mask_zero=True)(ip)

model = Model(ip, emb)
input_array = np.array([[5, 3, 1], [1, 2, 3]])

model.compile("rmsprop", "mse")

output_array = model.predict(input_array)

print(output_array)

print(output_array.shape)

model.summary()

keras 对于嵌入层有不同的实现。为了验证这一点，我们进入 keras 嵌入层。

https://github.com/keras-team/keras/blob/master/keras/layers/embeddings.py#L16

现在我们只研究一下调用函数。

    def call(self, inputs):
        if K.dtype(inputs) != 'int32':
            inputs = K.cast(inputs, 'int32')
        out = K.gather(self.embeddings, inputs)
        return out

注意:如果您想要 keras 2.3.1 的确切源代码，请前往此处下载源代码:https://github.com/keras-team/keras/releases

但是如果我们进行 tensorflow 实现，情况就不同了。

https://github.com/tensorflow/tensorflow/blob/master/tensorflow/python/ops/embedding_ops.py

只是为了验证一下，调用函数的编写方式不同。

  def call(self, inputs):
    dtype = K.dtype(inputs)
    if dtype != 'int32' and dtype != 'int64':
      inputs = math_ops.cast(inputs, 'int32')
    out = embedding_ops.embedding_lookup(self.embeddings, inputs)
    return out

让我们像以前一样设计一个简单的网络并观察权重矩阵。

from keras.models import Model
from keras.layers import Embedding, Input
import numpy as np

ip = Input(shape = (3,))
emb = Embedding(1, 2, trainable=True, mask_zero=True)(ip)

model = Model(ip, emb)
input_array = np.array([[5, 3, 1], [1, 2, 3]])

model.compile("rmsprop", "mse")

output_array = model.predict(input_array)

print(output_array)

print(output_array.shape)

model.summary()

模型给出以下输出。

[[[0. 0.]
  [0. 0.]
  [0. 0.]]

 [[0. 0.]
  [0. 0.]
  [0. 0.]]]
(2, 3, 2)
Model: "model_18"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
=================================================================
input_21 (InputLayer)        (None, 3)                 0         
_________________________________________________________________
embedding_33 (Embedding)     (None, 3, 2)              2         
=================================================================
Total params: 2
Trainable params: 2
Non-trainable params: 0

好吧，我们得到了一堆零，但默认的weight_initializer不是零!

那么，现在让我们观察权重矩阵。

import keras.backend as K

w = model.layers[1].get_weights()
print(w)

[array([[ 0.03680499, -0.04904002]], dtype=float32)]

事实上，它并不全是零。

那么，为什么我们会得到零？

让我们更改模型的输入。

作为 input_dim = 1 的唯一词汇索引，为 0。让我们将 0 作为输入之一传递。

from keras.models import Model
from keras.layers import Embedding, Input
import numpy as np

ip = Input(shape = (3,))
emb = Embedding(1, 2, trainable=True, mask_zero=True)(ip)

model = Model(ip, emb)
input_array = np.array([[5, 0, 1], [1, 2, 0]])

model.compile("rmsprop", "mse")

output_array = model.predict(input_array)

print(output_array)

print(output_array.shape)

model.summary()

现在，我们在传递 0 的位置获得非零向量。

[[[ 0.          0.        ]
  [-0.04339869 -0.04900574]
  [ 0.          0.        ]]

 [[ 0.          0.        ]
  [ 0.          0.        ]
  [-0.04339869 -0.04900574]]]
(2, 3, 2)
Model: "model_19"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
=================================================================
input_22 (InputLayer)        (None, 3)                 0         
_________________________________________________________________
embedding_34 (Embedding)     (None, 3, 2)              2         
=================================================================
Total params: 2
Trainable params: 2
Non-trainable params: 0

简而言之，Keras 用零向量映射任何词汇表外的单词索引，对于那些位置，前向传递将确保所有贡献为零(尽管偏差可能发挥作用)，这是合理的。这有点违反直觉，因为将词汇标记传递给模型似乎是一种开销(而不是仅仅在预处理步骤中删除它们)并且是不好的做法，但这是测试不同的 input_diminput_dim 无需重新计算 token 。

关于python - Tensorflow 嵌入层词汇量大小，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/61609929/

文章推荐： numpy - 在 nilearn/numpy 中交换 3D 图像的轴

文章推荐： javascript - 将 C# 列表(多个)转换为 JavaScript 关联数组

文章推荐： git push 到新的上游分支

c# - 字典 API(词汇)
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以便用事实和引用来回答。关闭 4 年前。
semantic-web - 了解要使用的 RDFA 词汇
我们如何知道使用哪个词汇/命名空间来描述带有 RDFa 的数据？我看过很多使用 xmlns:dcterms="http://purl.org/dc/terms/" 的例子或 xmlns:sioc="
huggingface-transformers - 理解 BERT 词汇 [unusedxxx] token :
我正在尝试理解 BERT 词汇 here .它有 1000 个 [unusedxxx] token 。我不遵循这些 token 的用法。我了解其他特殊 token ，如 [SEP]、[CLS]，但 [
Oracle 词汇，什么是 mysql/SQL Server 相当于数据库
我需要一些词汇方面的帮助，我不经常使用 Oracle，但我熟悉 MySQL 和 SQL Server。我有一个应用程序需要升级和迁移，执行此操作的部分过程涉及导出到 XML 文件，允许安装程序创建新
ruby - 解析 RDFa、微数据等的最佳方式是什么，使用统一的模式/词汇(例如 schema.org)存储和显示信息
我主要使用 Ruby 来执行此操作，但到目前为止我的攻击计划如下: 使用 gems rdf、rdf-rdfa 和 rdf-microdata 或 mida 来解析给定任何 URI 的数据。我认为最好映

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

python - Tensorflow 嵌入层词汇量大小