gpt4 book ai didi

python - 如何在 Tensorflow 中为未知单词添加新嵌入(训练和预设测试)

转载 作者:IT老高 更新时间:2023-10-28 20:55:26 26 4
gpt4 key购买 nike

我很好奇,每当遇到预训练词汇中未知的单词时,如何添加一个正常随机化的 300 维向量(元素类型 = tf.float32)。我正在使用预训练的 GloVe 词嵌入,但在某些情况下,我意识到我遇到了未知词,我想为这个新发现的未知词创建一个正常随机化的词向量。

问题是在我目前的设置下,我使用 tf.contrib.lookup.index_table_from_tensor根据已知词汇将单词转换为整数。这个函数可以创建新的标记并对一些预定义数量的词汇表外的单词进行哈希处理,但是我的 embed 将不包含这个新的未知哈希值的嵌入。我不确定是否可以简单地将随机嵌入附加到 embed 列表的末尾。

我也想以一种有效的方式来做这件事,所以预先构建的 tensorflow 函数或涉及 tensorflow 函数的方法可能是最有效的。我定义了预先知道的特殊标记,例如句尾标记和默认未知作为空字符串(“在索引 0 处),但这在学习各种不同的未知单词的能力方面受到限制。我目前使用 tf.nn.embedding_lookup()作为最后的嵌入步骤。

我希望能够为训练数据中的每个未知单词添加新的随机 300d 向量,并且我还希望为训练中可能遇到的任何在训练中未见的未知标记添加预制的随机词向量测试。最有效的方法是什么?

def embed_tensor(string_tensor, trainable=True):
"""
Convert List of strings into list of indicies then into 300d vectors
"""
# ordered lists of vocab and corresponding (by index) 300d vector
vocab, embed = load_pretrained_glove()

# Set up tensorflow look up from string word to unique integer
vocab_lookup = tf.contrib.lookup.index_table_from_tensor(
mapping=tf.constant(vocab),
default_value = 0)
string_tensor = vocab_lookup.lookup(string_tensor)

# define the word embedding
embedding_init = tf.Variable(tf.constant(np.asarray(embed),
dtype=tf.float32),
trainable=trainable,
name="embed_init")

# return the word embedded version of the sentence (300d vectors/word)
return tf.nn.embedding_lookup(embedding_init, string_tensor)

最佳答案

下面的代码示例调整了您的 embed_tensor 函数,以便按如下方式嵌入单词:

  • 对于具有预训练嵌入的单词,嵌入使用预训练嵌入进行初始化。如果 trainableFalse,则嵌入可以在训练期间保持固定。
  • 对于训练数据中没有预训练嵌入的单词,嵌入是随机初始化的。如果 trainableFalse,则嵌入可以在训练期间保持固定。
  • 对于测试数据中未出现在训练数据中且没有预训练嵌入的单词,使用单个随机初始化的嵌入向量。无法训练此向量。
import tensorflow as tf
import numpy as np

EMB_DIM = 300
def load_pretrained_glove():
return ["a", "cat", "sat", "on", "the", "mat"], np.random.rand(6, EMB_DIM)

def get_train_vocab():
return ["a", "dog", "sat", "on", "the", "mat"]

def embed_tensor(string_tensor, trainable=True):
"""
Convert List of strings into list of indices then into 300d vectors
"""
# ordered lists of vocab and corresponding (by index) 300d vector
pretrained_vocab, pretrained_embs = load_pretrained_glove()
train_vocab = get_train_vocab()
only_in_train = list(set(train_vocab) - set(pretrained_vocab))
vocab = pretrained_vocab + only_in_train

# Set up tensorflow look up from string word to unique integer
vocab_lookup = tf.contrib.lookup.index_table_from_tensor(
mapping=tf.constant(vocab),
default_value=len(vocab))
string_tensor = vocab_lookup.lookup(string_tensor)

# define the word embedding
pretrained_embs = tf.get_variable(
name="embs_pretrained",
initializer=tf.constant_initializer(np.asarray(pretrained_embs), dtype=tf.float32),
shape=pretrained_embs.shape,
trainable=trainable)
train_embeddings = tf.get_variable(
name="embs_only_in_train",
shape=[len(only_in_train), EMB_DIM],
initializer=tf.random_uniform_initializer(-0.04, 0.04),
trainable=trainable)
unk_embedding = tf.get_variable(
name="unk_embedding",
shape=[1, EMB_DIM],
initializer=tf.random_uniform_initializer(-0.04, 0.04),
trainable=False)

embeddings = tf.concat([pretrained_embs, train_embeddings, unk_embedding], axis=0)

return tf.nn.embedding_lookup(embeddings, string_tensor)

仅供引用,要对训练数据中未出现且没有预训练嵌入的单词进行合理的非随机表示,您可以考虑将训练数据中频率较低的单词映射到 < em>unk 标记(不在您的词汇表中)并使 unk_embedding 可训练。通过这种方式,您可以学习训练数据中看不到的单词的原型(prototype)。

关于python - 如何在 Tensorflow 中为未知单词添加新嵌入(训练和预设测试),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45113130/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com