gpt4 book ai didi

machine-learning - 如何使用 LSTM 构建语言模型来分配给定句子的出现概率

转载 作者:行者123 更新时间:2023-11-30 08:27:23 25 4
gpt4 key购买 nike

目前,我正在使用 Trigram 来执行此操作。它指定给定句子出现的概率。但它仅限于两个单词的唯一上下文。但 LSTM 可以做得更多。那么如何构建一个 LSTM 模型来分配给定句子出现的概率呢?

最佳答案

我刚刚编写了一个非常简单的示例,展示了如何使用 LSTM 模型计算句子出现的概率。完整代码可以找到 here

假设我们想要预测以下数据集中一个句子出现的概率(这首韵律于 1765 年左右发表在伦敦的Mother Goose's Melody中):

# Data
data = ["Two little dicky birds",
"Sat on a wall,",
"One called Peter,",
"One called Paul.",
"Fly away, Peter,",
"Fly away, Paul!",
"Come back, Peter,",
"Come back, Paul."]

首先,让我们使用 keras.preprocessing.text.Tokenizer 创建词汇表并对句子进行标记:

# Preprocess data
tokenizer = Tokenizer()
tokenizer.fit_on_texts(data)
vocab = tokenizer.word_index
seqs = tokenizer.texts_to_sequences(data)

我们的模型将以一系列单词作为输入(上下文),并在给定上下文的情况下输出词汇表中每个单词的条件概率分布。为此,我们通过填充序列并在序列上滑动窗口来准备训练数据:

def prepare_sentence(seq, maxlen):
# Pads seq and slides windows
x = []
y = []
for i, w in enumerate(seq):
x_padded = pad_sequences([seq[:i]],
maxlen=maxlen - 1,
padding='pre')[0] # Pads before each sequence
x.append(x_padded)
y.append(w)
return x, y

# Pad sequences and slide windows
maxlen = max([len(seq) for seq in seqs])
x = []
y = []
for seq in seqs:
x_windows, y_windows = prepare_sentence(seq, maxlen)
x += x_windows
y += y_windows
x = np.array(x)
y = np.array(y) - 1 # The word <PAD> does not constitute a class
y = np.eye(len(vocab))[y] # One hot encoding

我决定为每节经文单独滑动窗口,但这可以用不同的方式完成。

接下来,我们使用 Keras 定义并训练一个简单的 LSTM 模型。该模型由嵌入层、LSTM 层和具有 softmax 激活的密集层组成(它使用 LSTM 最后一个时间步的输出来生成给定上下文的词汇表中每个单词的概率):

# Define model
model = Sequential()
model.add(Embedding(input_dim=len(vocab) + 1, # vocabulary size. Adding an
# extra element for <PAD> word
output_dim=5, # size of embeddings
input_length=maxlen - 1)) # length of the padded sequences
model.add(LSTM(10))
model.add(Dense(len(vocab), activation='softmax'))
model.compile('rmsprop', 'categorical_crossentropy')

# Train network
model.fit(x, y, epochs=1000)

句子w_1 ... w_n出现的联合概率P(w_1, ..., w_n)可以使用条件概率规则计算:

P(w_1, ..., w_n)=P(w_1)*P(w_2|w_1)*...*P(w_n|w_{n-1}, ..., w_1)

其中每个条件概率均由 LSTM 模型给出。请注意,它们可能非常小,因此在对数空间中工作以避免数值不稳定问题是明智的。把它们放在一起:

# Compute probability of occurence of a sentence
sentence = "One called Peter,"
tok = tokenizer.texts_to_sequences([sentence])[0]
x_test, y_test = prepare_sentence(tok, maxlen)
x_test = np.array(x_test)
y_test = np.array(y_test) - 1 # The word <PAD> does not constitute a class
p_pred = model.predict(x_test) # array of conditional probabilities
vocab_inv = {v: k for k, v in vocab.items()}

# Compute product
# Efficient version: np.exp(np.sum(np.log(np.diag(p_pred[:, y_test]))))
log_p_sentence = 0
for i, prob in enumerate(p_pred):
word = vocab_inv[y_test[i]+1] # Index 0 from vocab is reserved to <PAD>
history = ' '.join([vocab_inv[w] for w in x_test[i, :] if w != 0])
prob_word = prob[y_test[i]]
log_p_sentence += np.log(prob_word)
print('P(w={}|h={})={}'.format(word, history, prob_word))
print('Prob. sentence: {}'.format(np.exp(log_p_sentence)))

注意:这是一个非常小的玩具数据集,我们可能会过度拟合。

<小时/>

2022 年 10 月 29 日更新:对于较大的数据集,如果一次处理整个数据集,可能会耗尽内存。在这种情况下,我建议使用生成器来训练模型。请参阅 this gist 了解使用数据生成器的修改版本。

关于machine-learning - 如何使用 LSTM 构建语言模型来分配给定句子的出现概率,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51123481/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com